論文の概要: Not All Needles Are Found: How Fact Distribution and Don't Make It Up Prompts Shape Literal Extraction, Logical Inference, and Hallucination Risks in Long-Context LLMs
- arxiv url: http://arxiv.org/abs/2601.02023v1
- Date: Mon, 05 Jan 2026 11:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.048091
- Title: Not All Needles Are Found: How Fact Distribution and Don't Make It Up Prompts Shape Literal Extraction, Logical Inference, and Hallucination Risks in Long-Context LLMs
- Title(参考訳): すべてのニーズが見つかる訳ではない:長期LLMにおける形状リテラル抽出,論理的推論,幻覚リスクについて
- Authors: Amirali Ebrahimzadeh, Seyyed M. Salili,
- Abstract要約: 大きな言語モデル(LLM)は、非常に長い入力コンテキストをサポートするようになった。
どのようにして情報を抽出し、大規模に推測するかは、まだ不明である。
我々は, 事実配置, コーパスレベルの事実分布, そして, モデル行動にどう影響するかを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly support very long input contexts. Yet it remains unclear how reliably they extract and infer information at scale. Performance varies with context length and strongly interacts with how information is distributed in real-world corpora. Motivated by these observations, we study how fact placement, corpus-level fact distributions, and Don't Make It Up prompts influence model behavior. We introduce an extended needle-in-a-haystack benchmark across four production-scale models: Gemini-2.5-flash, ChatGPT-5-mini, Claude-4.5-haiku, and Deepseek-v3.2-chat. Unlike prior work, we separately evaluate literal extraction, logical inference, and hallucination risk. Our study considers both positional effects and realistic distributions of evidence across long contexts, as well as prompts that explicitly discourage fabrication. We find that longer contexts alone do not guarantee better performance and can be detrimental when relevant evidence is diluted or widely dispersed. Performance varies substantially across models: some show severe degradation under realistic conditions, while others remain more robust at longer context lengths. Anti-hallucination (AH) instructions can make some models overly conservative, sharply reducing accuracy in literal extraction and logical inference. While we do not directly compare retrieval-augmented generation (RAG) and cache-augmented generation (CAG), our results suggest many failures stem from ineffective context utilization. Models often struggle to identify and prioritize relevant information even when it is present. These findings have direct practical implications, as enterprise workflows increasingly involve pasting large volumes of unfiltered documents into LLM prompts. Effective context length and model-specific robustness to long contexts are therefore critical for reliable LLM deployment in research and business.
- Abstract(参考訳): 大きな言語モデル(LLM)は、非常に長い入力コンテキストをサポートするようになった。
しかし、いかに確実に情報を抽出し、大規模に推測するかは、まだ不明である。
パフォーマンスはコンテキストの長さによって異なり、実際のコーパスで情報の分散方法と強く相互作用する。
これらの観察によって動機づけられた我々は、事実の配置、コーパスレベルの事実分布、そしてモデル行動にどう影響するかを考察する。
Gemini-2.5-flash、ChatGPT-5-mini、Claude-4.5-haiku、Deepseek-v3.2-chatの4つの生産規模のモデルにまたがる拡張型ニードル・イン・ア・ヘイスタック・ベンチマークを導入する。
従来と異なり,リテラル抽出,論理推論,幻覚リスクを別々に評価した。
本研究は, 長い文脈における証拠の位置的効果と現実的な分布を両立させ, 製造を阻害する要因について検討した。
より長いコンテキストだけではより良いパフォーマンスを保証することができず、関連する証拠が希薄になったり、広く分散された場合、有害になる可能性がある。
性能はモデルによって大きく異なり、現実的な条件下で深刻な劣化を示すものもあれば、より長いコンテキスト長で頑丈なものもある。
アンチ・ハロシン化(AH)命令は、一部のモデルを過度に保守的にし、リテラル抽出と論理推論の精度を著しく低下させる。
検索強化世代 (RAG) とキャッシュ増強世代 (CAG) を直接比較するわけではないが, この結果から, 文脈利用の非効率性に起因する障害が多かったことが示唆された。
モデルは、たとえ存在するとしても、関連する情報を識別し、優先順位付けするのに苦労することが多い。
エンタープライズワークフローでは、大量の未フィルタリング文書をLSMプロンプトにペーストする傾向が強まっている。
したがって、研究やビジネスにおける信頼性の高いLLMデプロイメントには、効果的なコンテキスト長と長期コンテキストに対するモデル固有の堅牢性が不可欠である。
関連論文リスト
- LLM Microscope: What Model Internals Reveal About Answer Correctness and Context Utilization [9.410181019585822]
我々は、モデル出力の正しさを予測できるかどうかを確認するために、解釈可能性法を運用する。
私たちは正しい、間違った、無関係なコンテキストを考え、それらを区別するためのメトリクスを導入します。
モデル内部のメトリクスは、正しいコンテキストと不正確なコンテキストを区別する基準線を著しく上回る。
論文 参考訳(メタデータ) (2025-10-05T03:14:05Z) - Positional Biases Shift as Inputs Approach Context Window Limits [57.00239097102958]
入力がモデルのコンテキストウィンドウの最大50%を占める場合、LiM効果は最強となる。
関係情報が入力の終端に近づくと,モデルの性能が向上する,距離に基づくバイアスが観測される。
論文 参考訳(メタデータ) (2025-08-10T20:40:24Z) - ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文 参考訳(メタデータ) (2025-02-21T14:23:14Z) - CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels [11.614599448394374]
CNNSumは,中国小説をベースとした多スケール長文要約ベンチマークである。
CNNSumは4つのサブセットにまたがって、合計695のサンプルで、長さは16kから128kである。
我々は、多数のLCMをベンチマークし、異常な出力タイプを要約するために詳細な人間の評価を行う。
論文 参考訳(メタデータ) (2024-12-03T20:35:57Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。