論文の概要: Enabling Low-Resource Language Retrieval: Establishing Baselines for Urdu MS MARCO
- arxiv url: http://arxiv.org/abs/2412.12997v2
- Date: Fri, 17 Jan 2025 10:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:58:26.781750
- Title: Enabling Low-Resource Language Retrieval: Establishing Baselines for Urdu MS MARCO
- Title(参考訳): ローソース言語検索の実現: Urdu MS MARCO のベースラインを確立する
- Authors: Umer Butt, Stalin Veranasi, Günter Neumann,
- Abstract要約: 本稿では,機械翻訳によるMS MARCOデータセットの翻訳により作成した,最初の大規模Urdu IRデータセットを紹介する。
我々は、ウルドゥー語におけるIRのゼロショット学習によるベースライン結果を確立し、その後、mMARCO多言語IR手法を新たに翻訳されたデータセットに適用する。
以上の結果から,超微調整モデル(Urdu-mT5-mMARCO)は0.247のMRR@10,0.439のRecall@10を達成できた。
- 参考スコア(独自算出の注目度): 0.6554326244334868
- License:
- Abstract: As the Information Retrieval (IR) field increasingly recognizes the importance of inclusivity, addressing the needs of low-resource languages remains a significant challenge. This paper introduces the first large-scale Urdu IR dataset, created by translating the MS MARCO dataset through machine translation. We establish baseline results through zero-shot learning for IR in Urdu and subsequently apply the mMARCO multilingual IR methodology to this newly translated dataset. Our findings demonstrate that the fine-tuned model (Urdu-mT5-mMARCO) achieves a Mean Reciprocal Rank (MRR@10) of 0.247 and a Recall@10 of 0.439, representing significant improvements over zero-shot results and showing the potential for expanding IR access for Urdu speakers. By bridging access gaps for speakers of low-resource languages, this work not only advances multilingual IR research but also emphasizes the ethical and societal importance of inclusive IR technologies. This work provides valuable insights into the challenges and solutions for improving language representation and lays the groundwork for future research, especially in South Asian languages, which can benefit from the adaptable methods used in this study.
- Abstract(参考訳): 情報検索(IR)分野は、インクリビティの重要性をますます認識しているため、低リソース言語のニーズに対応することは、依然として大きな課題である。
本稿では,機械翻訳によるMS MARCOデータセットの翻訳により作成した,最初の大規模Urdu IRデータセットを紹介する。
我々は、ウルドゥー語におけるIRのゼロショット学習によるベースライン結果を確立し、その後、mMARCO多言語IR手法を新たに翻訳されたデータセットに適用する。
以上の結果から,超微調整モデル(Urdu-mT5-mMARCO)は0.247のMRR@10と0.439のRecall@10を達成し,ゼロショット結果に対する大幅な改善とUrdu話者に対するIRアクセス拡大の可能性を示した。
低リソース言語話者のアクセスギャップを埋めることにより、この研究は多言語IR研究の進展だけでなく、包括IR技術の倫理的・社会的重要性も強調する。
この研究は、言語表現を改善するための課題と解決策に関する貴重な洞察を提供し、特に東南アジアの言語における将来の研究の基礎を築き、この研究で使われる適応可能な手法の恩恵を受けることができる。
関連論文リスト
- From Statistical Methods to Pre-Trained Models; A Survey on Automatic Speech Recognition for Resource Scarce Urdu Language [41.272055304311905]
本稿では,東南アジア諸国で広く話されている資源制約のあるウルドゥー語について述べる。
ウルドゥーASRにおける将来の研究の現在の研究動向、技術進歩、および潜在的方向性について概説する。
論文 参考訳(メタデータ) (2024-11-20T17:39:56Z) - Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [24.856817602140193]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。
本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:35:47Z) - RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing [0.2302001830524133]
本稿では,検索言語モデル (RALM) に関する総合的な概要の欠如について論じる。
本稿では、Retrievers、Language Models、Augmentationsなど、ALMの本質的なコンポーネントについて論じる。
RALMは、翻訳や対話システムから知識集約アプリケーションまで、様々なタスクにおいて有用性を示す。
論文 参考訳(メタデータ) (2024-04-30T13:14:51Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - BEIR-PL: Zero Shot Information Retrieval Benchmark for the Polish Language [4.720913027054481]
この研究はmMARCOとMr.TyDiのデータセットにインスパイアされ、アクセス可能なすべてのオープンIRデータセットをポーランド語に翻訳した。
13のデータセットからなる新しいベンチマークであるBEIR-PLベンチマークを導入しました。
新たに導入されたBEIR-PLベンチマークにおいて,多数のIRモデルの評価と比較を行った。
論文 参考訳(メタデータ) (2023-05-31T13:29:07Z) - Boosting Zero-shot Cross-lingual Retrieval by Training on Artificially
Code-Switched Data [26.38449396649045]
問合せや文書が言語によって異なる場合,ゼロショットローダの有効性は低下する。
そこで我々は,人工的なコード切替データに基づいてランキングモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2023-05-09T09:32:19Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval [51.004601358498135]
Mr. TyDiは、11の類型的多様言語における単言語検索のためのベンチマークデータセットである。
このリソースの目的は、非英語言語における高密度検索技術の研究を促進することである。
論文 参考訳(メタデータ) (2021-08-19T16:53:43Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。