論文の概要: FIBER: A Multilingual Evaluation Resource for Factual Inference Bias
- arxiv url: http://arxiv.org/abs/2512.11110v1
- Date: Thu, 11 Dec 2025 20:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.570118
- Title: FIBER: A Multilingual Evaluation Resource for Factual Inference Bias
- Title(参考訳): FIBER:Factual Inference Biasのための多言語評価リソース
- Authors: Evren Ayberk Munis, Deniz Yılmaz, Arianna Muti, Çağrı Toraman,
- Abstract要約: 単元・多元設定における事実知識評価のベンチマークであるFIBERを提案する。
このデータセットには、英語、イタリア語、トルコ語での文補完、質問回答、オブジェクト数予測タスクが含まれている。
FIBERを用いて,提案言語がエンティティ選択における推論バイアスを誘導するかどうかを検討する。
- 参考スコア(独自算出の注目度): 3.128106382761961
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models are widely used across domains, yet there are concerns about their factual reliability and biases. Factual knowledge probing offers a systematic means to evaluate these aspects. Most existing benchmarks focus on single-entity facts and monolingual data. We therefore present FIBER, a multilingual benchmark for evaluating factual knowledge in single- and multi-entity settings. The dataset includes sentence completion, question-answering, and object-count prediction tasks in English, Italian, and Turkish. Using FIBER, we examine whether the prompt language induces inference bias in entity selection and how large language models perform on multi-entity versus single-entity questions. The results indicate that the language of the prompt can influence the model's generated output, particularly for entities associated with the country corresponding to that language. However, this effect varies across different topics such that 31% of the topics exhibit factual inference bias score greater than 0.5. Moreover, the level of bias differs across languages such that Turkish prompts show higher bias compared to Italian in 83% of the topics, suggesting a language-dependent pattern. Our findings also show that models face greater difficulty when handling multi-entity questions than the single-entity questions. Model performance differs across both languages and model sizes. The highest mean average precision is achieved in English, while Turkish and Italian lead to noticeably lower scores. Larger models, including Llama-3.1-8B and Qwen-2.5-7B, show consistently better performance than smaller 3B-4B models.
- Abstract(参考訳): 大規模な言語モデルはドメイン全体で広く使用されているが、実際の信頼性とバイアスには懸念がある。
事実知識探索はこれらの側面を評価するための体系的な手段を提供する。
既存のベンチマークのほとんどは、単一エンティティ事実とモノリンガルデータに焦点を当てている。
そこで,本研究では,単言語と多言語の設定において,事実知識を評価するための多言語ベンチマークであるFIBERを提案する。
このデータセットには、英語、イタリア語、トルコ語での文補完、質問回答、オブジェクト数予測タスクが含まれている。
FIBERを用いて,提案言語がエンティティ選択における推論バイアスを誘発するか否か,また,大規模言語モデルが単一質問に対して多義性に与える影響を検討する。
その結果、特にその言語に対応する国に関連するエンティティに対して、プロンプトの言語がモデルが生成した出力に影響を与える可能性が示唆された。
しかし、この効果は、トピックの31%が実測バイアススコアが0.5以上であるような、さまざまなトピックによって異なる。
さらに、偏見のレベルは言語によって異なり、トルコのプロンプトはトピックの83%でイタリア語よりも高い偏見を示し、言語に依存したパターンを示唆している。
また,本研究の結果から,一意質問よりも多意質問の扱いが困難であることが示唆された。
モデルパフォーマンスは言語とモデルサイズの両方で異なる。
最も高い平均精度は英語で達成され、トルコ語とイタリア語は顕著に低いスコアに導かれる。
Llama-3.1-8BやQwen-2.5-7Bといった大型モデルは、小型の3B-4Bよりも一貫して性能が良い。
関連論文リスト
- Quantifying Language Disparities in Multilingual Large Language Models [31.198046729180266]
大規模多言語評価で報告された結果は、しばしば、対象言語、実験的な設定の違い、モデル選択などの要因によって断片化され、まとめられる。
本稿では,これらの相反する変数をアンタングル化し,性能実現率,変動係数,言語ポテンシャルの3つの解釈可能な指標を導入するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-23T23:25:38Z) - Beyond Early-Token Bias: Model-Specific and Language-Specific Position Effects in Multilingual LLMs [50.07451351559251]
我々は,5言語(英語,ロシア語,ドイツ語,ヒンディー語,ベトナム語)にまたがる調査を行った。
位置バイアスが即時戦略とどのように相互作用し、出力エントロピーに影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2025-05-22T02:23:00Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning [44.53966523376327]
SeaEvalは多言語基盤モデルのベンチマークである。
これらのモデルがどのように理解し、自然言語で推論するかを特徴付ける。
また、文化の実践やニュアンス、価値観をいかに理解したかについても検討する。
論文 参考訳(メタデータ) (2023-09-09T11:42:22Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。