論文の概要: Evaluating Contextually Mediated Factual Recall in Multilingual Large Language Models
- arxiv url: http://arxiv.org/abs/2601.12555v1
- Date: Sun, 18 Jan 2026 19:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.681301
- Title: Evaluating Contextually Mediated Factual Recall in Multilingual Large Language Models
- Title(参考訳): 多言語大言語モデルにおける文脈媒介ファクトリコールの評価
- Authors: Yihong Liu, Bingyu Xiong, Hinrich Schütze,
- Abstract要約: 大規模言語モデル(LLM)における文脈依存的事実リコールについて検討する。
文脈的調停は事実的想起を常に低下させ、関係性にかなりの変化をもたらす。
これらの知見は、孤立した事実記憶と文脈依存言語理解のギャップを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 47.44133672489574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can recall a wide range of factual knowledge across languages. However, existing factual recall evaluations primarily assess fact retrieval in isolation, where the queried entity is explicitly named and the fact is requested directly. In natural language use, facts are often accessed through context, where the relevant entity is introduced only indirectly. In this work, we study contextually mediated factual recall, asking whether LLMs can reliably retrieve factual knowledge when the target entity is embedded in a naturalistic context rather than queried explicitly, across languages. We construct controlled prompts that preserve the underlying fact while introducing referential mediation through contextual sentences. To disentangle contextual effects from name-specific associations, we further compare performance using synthetic names and real names across languages. Evaluating multiple model families in five languages, we find that contextual mediation consistently degrades factual recall, with substantial variation across relations. Larger models are more robust to contextual mediation, exhibiting a reduced performance gap relative to direct queries, while the effect of real names and name origin is mixed and unsystematic. These findings highlight a gap between isolated factual recall and context-dependent language understanding in multilingual LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語全体にわたって幅広い事実知識を記憶することができる。
しかし,既存のファクトリコール評価は,クエリされたエンティティを明示的に命名し,その事実を直接要求する独立した事実検索を主に評価する。
自然言語の使用では、ファクトはしばしばコンテキストを通してアクセスされ、関連するエンティティは間接的にのみ導入される。
本研究では,LLMが言語間で明示的にクエリされるのではなく,目的のエンティティが自然主義的なコンテキストに埋め込まれている場合に,現実的な知識を確実に取得できるかどうかを問う。
我々は、文脈文を通して参照調停を導入しながら、基礎となる事実を保存する制御されたプロンプトを構築する。
名前固有の連想から文脈効果を遠ざけるために,言語間での合成名と実名を用いた性能の比較を行う。
5つの言語で複数のモデルファミリを評価すると、文脈的調停は事実的リコールを常に低下させ、関係性にかなりの変化をもたらすことが分かる。
より大きなモデルは、文脈的な調停に対してより堅牢で、直接クエリと比較してパフォーマンスのギャップが小さく、実際の名前と名前の起源の影響は混在しており、体系的ではない。
これらの知見は,多言語LLMにおける事実記憶と文脈依存言語理解のギャップを浮き彫りにした。
関連論文リスト
- TrackList: Tracing Back Query Linguistic Diversity for Head and Tail Knowledge in Open Large Language Models [1.634029945636262]
大規模言語モデル(LLM)は、ユーザ入力クエリに定義型回答を与えるのに効果的であることが証明されている。
より詳細な言語および統計的分析パイプラインであるTrackListを用いて,この性能低下を評価した。
概念(頭部)の高頻度と低周波(尾)が言語モデルの性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-11-26T03:14:09Z) - Generative Query Expansion with Multilingual LLMs for Cross-Lingual Information Retrieval [0.19116784879310025]
マルチ言語大言語モデル (mLLMs) は、セマンティック拡張から同義語や関連語によるクエリ拡張から擬文書生成へ移行した。
本研究は,近年のmLLMと,言語間検索性能を向上する要因を特定するために,複数の生成的拡張戦略にまたがる微調整変種を評価した。
論文 参考訳(メタデータ) (2025-11-24T17:18:25Z) - RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models [9.211266032947497]
我々は,事実検索が孤立点問合せよりもかなり難しいことを実証した。
我々の実験では、最先端のLLMでさえ25%以上の精度で苦戦していることがわかった。
これらの知見は、構造化された事実知識を合成する現在のLLMの能力において、重要な限界である。
論文 参考訳(メタデータ) (2025-05-27T16:33:38Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文 参考訳(メタデータ) (2025-02-21T14:23:14Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。