論文の概要: Context Shapes LLMs Retrieval-Augmented Fact-Checking Effectiveness
- arxiv url: http://arxiv.org/abs/2602.14044v1
- Date: Sun, 15 Feb 2026 08:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.622891
- Title: Context Shapes LLMs Retrieval-Augmented Fact-Checking Effectiveness
- Title(参考訳): 文脈形状 LLM の検索によるFact-Checking の有効性
- Authors: Pietro Bernardelle, Stefano Civelli, Kevin Roitero, Gianluca Demartini,
- Abstract要約: 大規模言語モデル(LLM)は多種多様なタスクにまたがる推論能力を示すが、拡張されたコンテキストにおける性能は相容れない。
本研究は,様々な文脈における事実知識と証拠配置の影響について評価する。
- 参考スコア(独自算出の注目度): 6.250095470690937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show strong reasoning abilities across diverse tasks, yet their performance on extended contexts remains inconsistent. While prior research has emphasized mid-context degradation in question answering, this study examines the impact of context in LLM-based fact verification. Using three datasets (HOVER, FEVEROUS, and ClimateFEVER) and five open-source models accross different parameters sizes (7B, 32B and 70B parameters) and model families (Llama-3.1, Qwen2.5 and Qwen3), we evaluate both parametric factual knowledge and the impact of evidence placement across varying context lengths. We find that LLMs exhibit non-trivial parametric knowledge of factual claims and that their verification accuracy generally declines as context length increases. Similarly to what has been shown in previous works, in-context evidence placement plays a critical role with accuracy being consistently higher when relevant evidence appears near the beginning or end of the prompt and lower when placed mid-context. These results underscore the importance of prompt structure in retrieval-augmented fact-checking systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる強力な推論能力を示すが、拡張されたコンテキストにおけるパフォーマンスは相容れないままである。
従来の研究では、質問応答における中文脈劣化が強調されてきたが、本研究では、LLMに基づく事実検証における文脈の影響について検討した。
パラメータサイズ (7B, 32B, 70Bパラメータ) とモデルファミリー (Llama-3.1, Qwen2.5, Qwen3) の3つのデータセット (HOVER, FEVEROUS, ClimateFEVER) と5つのオープンソースモデルを用いて, パラメトリックな事実知識と, さまざまな文脈における証拠配置の影響を評価した。
LLMは事実主張の非自明なパラメトリック知識を示し,その検証精度は文脈長の増加とともに一般的に低下することがわかった。
以前の作品と同様に、インコンテクストのエビデンス配置は、インプロンプトの開始または終了付近に関連性のあるエビデンスが現れ、中間コンテクストを置くと、常に高い精度で重要な役割を果たす。
これらの結果は,検索強化ファクトチェックシステムにおける即時構造の重要性を浮き彫りにしている。
関連論文リスト
- Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Not All Needles Are Found: How Fact Distribution and Don't Make It Up Prompts Shape Literal Extraction, Logical Inference, and Hallucination Risks in Long-Context LLMs [0.0]
大きな言語モデル(LLM)は、非常に長い入力コンテキストをサポートするようになった。
どのようにして情報を抽出し、大規模に推測するかは、まだ不明である。
我々は, 事実配置, コーパスレベルの事実分布, そして, モデル行動にどう影響するかを考察する。
論文 参考訳(メタデータ) (2026-01-05T11:30:56Z) - Positional Biases Shift as Inputs Approach Context Window Limits [57.00239097102958]
入力がモデルのコンテキストウィンドウの最大50%を占める場合、LiM効果は最強となる。
関係情報が入力の終端に近づくと,モデルの性能が向上する,距離に基づくバイアスが観測される。
論文 参考訳(メタデータ) (2025-08-10T20:40:24Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - When Context Leads but Parametric Memory Follows in Large Language Models [4.567122178196834]
大規模言語モデル (LLM) は多様な知識源の活用において顕著な進歩を見せている。
本研究では,9つのLLMがオープンな質問に対して,局所的な文脈とグローバルなパラメータの知識を割り当てる方法について検討した。
論文 参考訳(メタデータ) (2024-09-13T00:03:19Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。