論文の概要: XLQA: A Benchmark for Locale-Aware Multilingual Open-Domain Question Answering
- arxiv url: http://arxiv.org/abs/2508.16139v1
- Date: Fri, 22 Aug 2025 07:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.279218
- Title: XLQA: A Benchmark for Locale-Aware Multilingual Open-Domain Question Answering
- Title(参考訳): XLQA: ローカル対応多言語オープンドメイン質問応答ベンチマーク
- Authors: Keon-Woo Roh, Yeong-Joon Ju, Seong-Whan Lee,
- Abstract要約: 大規模言語モデル (LLM) はオープンドメイン質問応答 (ODQA) において大きな進歩を見せている。
ほとんどの評価は英語に焦点をあて、言語間で局所不変の回答を仮定する。
XLQAは局所感性多言語ODQA用に明示的に設計された新しいベンチマークである。
- 参考スコア(独自算出の注目度): 48.913480244527925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown significant progress in Open-domain question answering (ODQA), yet most evaluations focus on English and assume locale-invariant answers across languages. This assumption neglects the cultural and regional variations that affect question understanding and answer, leading to biased evaluation in multilingual benchmarks. To address these limitations, we introduce XLQA, a novel benchmark explicitly designed for locale-sensitive multilingual ODQA. XLQA contains 3,000 English seed questions expanded to eight languages, with careful filtering for semantic consistency and human-verified annotations distinguishing locale-invariant and locale-sensitive cases. Our evaluation of five state-of-the-art multilingual LLMs reveals notable failures on locale-sensitive questions, exposing gaps between English and other languages due to a lack of locale-grounding knowledge. We provide a systematic framework and scalable methodology for assessing multilingual QA under diverse cultural contexts, offering a critical resource to advance the real-world applicability of multilingual ODQA systems. Our findings suggest that disparities in training data distribution contribute to differences in both linguistic competence and locale-awareness across models.
- Abstract(参考訳): 大規模言語モデル (LLM) は、オープンドメイン質問応答 (ODQA) において顕著な進歩を示しているが、ほとんどの評価は英語に焦点をあて、言語全体にわたって局所不変の回答を仮定している。
この仮定は、質問の理解と回答に影響を与える文化的・地域的なバリエーションを無視し、多言語ベンチマークにおけるバイアス評価に繋がる。
これらの制約に対処するために、ロケールに敏感な多言語ODQA用に明示的に設計された新しいベンチマークであるXLQAを紹介する。
XLQAには8つの言語に拡張された3,000の英語のシード質問が含まれている。
5つの最先端多言語 LLM の評価では,局所感性質問に対する顕著な障害がみられ,現地知識の欠如による英語と他言語間のギャップが明らかとなった。
多様な文化的文脈下で多言語QAを評価するための体系的なフレームワークとスケーラブルな方法論を提供し、多言語ODQAシステムの現実的な適用性を高めるための重要なリソースを提供する。
本研究は,学習データ分布の相違が,モデル間の言語能力と局所認識の相違に寄与することが示唆された。
関連論文リスト
- MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。
我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文 参考訳(メタデータ) (2025-06-24T09:53:00Z) - High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。
資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。
多言語 LLM は非一貫性な言語間アライメントを示す。
論文 参考訳(メタデータ) (2025-03-14T10:39:27Z) - XIFBench: Evaluating Large Language Models on Multilingual Instruction Following [34.21958956053967]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる優れた命令追従機能を示している。
XIFBenchは、LLMの多言語命令追従能力を評価するための制約ベースのベンチマークである。
論文 参考訳(メタデータ) (2025-03-10T17:07:52Z) - CALM: Unleashing the Cross-Lingual Self-Aligning Ability of Language Model Question Answering [42.92810049636768]
大規模言語モデル(LLM)は、言語固有の文化的知識と一般知識の両方を取得するために、多言語コーパスで事前訓練されている。
言語モデル(CALM)の言語間知識の整合性について検討する。
我々は、異なる言語間でモデルの知識を整合させるために、直接選好最適化(DPO)を用いる。
論文 参考訳(メタデータ) (2025-01-30T16:15:38Z) - INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge [36.234295907476515]
機能的大規模言語モデル(LLM)の開発は、英語以外の言語における高品質な評価資源の欠如によってボトルネックとなっている。
本研究では,各地域における多言語LLMの能力を評価するため,現地試験資料から197,243対のQAペアの評価スイートを構築した。
論文 参考訳(メタデータ) (2024-11-29T16:03:14Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。