論文の概要: BETA-Labeling for Multilingual Dataset Construction in Low-Resource IR
- arxiv url: http://arxiv.org/abs/2602.14488v1
- Date: Mon, 16 Feb 2026 06:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.166996
- Title: BETA-Labeling for Multilingual Dataset Construction in Low-Resource IR
- Title(参考訳): BETA-Labeling for Multilingual Dataset Construction in Low-Resource IR (特集 情報ネットワーク)
- Authors: Md. Najib Hasan, Mst. Jannatun Ferdous Rain, Fyad Mohammed, Nazmul Siddique,
- Abstract要約: この研究は、BETA-labelingフレームワークを用いて構築されたBangla IRデータセットを示す。
我々は、他の低リソース言語からのIRデータセットがワンホップ機械翻訳によって効果的に再利用できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.06363400715351396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: IR in low-resource languages remains limited by the scarcity of high-quality, task-specific annotated datasets. Manual annotation is expensive and difficult to scale, while using large language models (LLMs) as automated annotators introduces concerns about label reliability, bias, and evaluation validity. This work presents a Bangla IR dataset constructed using a BETA-labeling framework involving multiple LLM annotators from diverse model families. The framework incorporates contextual alignment, consistency checks, and majority agreement, followed by human evaluation to verify label quality. Beyond dataset creation, we examine whether IR datasets from other low-resource languages can be effectively reused through one-hop machine translation. Using LLM-based translation across multiple language pairs, we experimented on meaning preservation and task validity between source and translated datasets. Our experiment reveal substantial variation across languages, reflecting language-dependent biases and inconsistent semantic preservation that directly affect the reliability of cross-lingual dataset reuse. Overall, this study highlights both the potential and limitations of LLM-assisted dataset creation for low-resource IR. It provides empirical evidence of the risks associated with cross-lingual dataset reuse and offers practical guidance for constructing more reliable benchmarks and evaluation pipelines in low-resource language settings.
- Abstract(参考訳): 低リソース言語におけるIRは、高品質でタスク固有の注釈付きデータセットの不足によって制限されている。
自動アノテータとして大規模言語モデル(LLM)を使用することで、ラベルの信頼性、バイアス、評価の妥当性に関する懸念が生じている。
本研究は,多様なモデルファミリーの複数のLLMアノテータを含むBETA-labelingフレームワークを用いて構築したBangla IRデータセットを提案する。
このフレームワークには、コンテキストアライメント、一貫性チェック、多数決が組み込まれ、続いてラベルの品質を検証するための人間による評価が行われる。
データセット作成以外にも、他の低リソース言語からのIRデータセットがワンホップ機械翻訳によって効果的に再利用できるかどうかを検討する。
複数の言語対にまたがるLLMに基づく翻訳を用いて、ソースと翻訳されたデータセット間の意味保存とタスクの妥当性を実験した。
言語に依存したバイアスや,言語間のデータセット再利用の信頼性に直接影響する一貫性のないセマンティック保存を反映し,言語間でのかなりのバリエーションを明らかにした。
本研究は,低リソースIRのためのLLM支援データセット生成の可能性と限界を明らかにする。
クロスランガルデータセットの再利用に関連するリスクの実証的な証拠を提供し、低リソースの言語設定でより信頼性の高いベンチマークと評価パイプラインを構築するための実践的なガイダンスを提供する。
関連論文リスト
- Investigating the Multilingual Calibration Effects of Language Model Instruction-Tuning [58.355275813623685]
本研究は,多言語設定における大規模言語モデル(LLM)の校正における重要なギャップについて考察する。
低リソース言語であっても、高リソース言語SFTデータセットのインストラクションチューニング後にモデルの信頼性が著しく向上する可能性がある。
しかし、精度の改善は限界的あるいは存在しないものであり、多言語言語における標準SFTの重大な欠点を浮き彫りにしている。
論文 参考訳(メタデータ) (2026-01-04T04:29:12Z) - Ready to Translate, Not to Represent? Bias and Performance Gaps in Multilingual LLMs Across Language Families and Domains [6.357124887141297]
大規模言語モデル (LLM) は機械翻訳 (MT) を再定義した
LLMは言語家族や専門ドメイン間で不均一なパフォーマンスを示すことが多い。
オープンソースLLMの翻訳品質と公平性を評価するための統合フレームワークおよびデータセットであるTranslation Tanglesを紹介する。
論文 参考訳(メタデータ) (2025-10-09T07:28:30Z) - SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods [1.2091341579150698]
低リソース言語10言語にまたがる多文語を含む文のデータセットをリリースする。
データセット作成を容易にするために,本論文では,有意な半自動アノテーション手法を提案する。
その結果、効果的な多意味的曖昧化のためのターゲットデータセット作成と評価の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-29T17:48:08Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。