論文の概要: Think Locally, Explain Globally: Graph-Guided LLM Investigations via Local Reasoning and Belief Propagation
- arxiv url: http://arxiv.org/abs/2601.17915v1
- Date: Sun, 25 Jan 2026 17:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.532399
- Title: Think Locally, Explain Globally: Graph-Guided LLM Investigations via Local Reasoning and Belief Propagation
- Title(参考訳): 局所的, グローバル的説明:局所推論と信念伝播によるグラフ誘導LDM調査
- Authors: Saurabh Jha, Rohan Arora, Bhavya, Noah Zheutlin, Paulina Toro Isaza, Laura Shwartz, Yu Deng, Daby Sow, Ruchi Mahindru, Ruchir Puri,
- Abstract要約: LLMエージェントは、ほとんどの環境が静的で、必要な情報がモデルのコンテキストウインドウに適合する場合、排他的になる。
直腸型薬剤は、この体制では特に脆い。
本稿では,LLMが限定的な局所的エビデンスマイニングとラベリングを行うためのフレームワークであるEoGを提案する。
- 参考スコア(独自算出の注目度): 5.191980417814362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents excel when environments are mostly static and the needed information fits in a model's context window, but they often fail in open-ended investigations where explanations must be constructed by iteratively mining evidence from massive, heterogeneous operational data. These investigations exhibit hidden dependency structure: entities interact, signals co-vary, and the importance of a fact may only become clear after other evidence is discovered. Because the context window is bounded, agents must summarize intermediate findings before their significance is known, increasing the risk of discarding key evidence. ReAct-style agents are especially brittle in this regime. Their retrieve-summarize-reason loop makes conclusions sensitive to exploration order and introduces run-to-run non-determinism, producing a reliability gap where Pass-at-k may be high but Majority-at-k remains low. Simply sampling more rollouts or generating longer reasoning traces does not reliably stabilize results, since hypotheses cannot be autonomously checked as new evidence arrives and there is no explicit mechanism for belief bookkeeping and revision. In addition, ReAct entangles semantic reasoning with controller duties such as tool orchestration and state tracking, so execution errors and plan drift degrade reasoning while consuming scarce context. We address these issues by formulating investigation as abductive reasoning over a dependency graph and proposing EoG (Explanations over Graphs), a disaggregated framework in which an LLM performs bounded local evidence mining and labeling (cause vs symptom) while a deterministic controller manages traversal, state, and belief propagation to compute a minimal explanatory frontier. On a representative ITBench diagnostics task, EoG improves both accuracy and run-to-run consistency over ReAct baselines, including a 7x average gain in Majority-at-k entity F1.
- Abstract(参考訳): LLMエージェントは、ほとんどの環境が静的で、必要な情報がモデルのコンテキストウインドウに適合している場合、排他的だが、大規模な不均一な操作データから証拠を反復的にマイニングすることによって説明を構築する必要があるような、オープンな調査でしばしば失敗する。
実体は相互作用し、シグナルは共変し、事実の重要性は、他の証拠が発見された後にのみ明らかになる。
コンテキストウィンドウは有界であるため、エージェントはその意味が知られる前に中間的な結果を要約し、重要な証拠を破棄するリスクを増大させなければならない。
直腸型薬剤は、この体制では特に脆い。
サーチ・サマーズ・レアソン・ループは、探索順序に敏感な結論を与え、ラン・トゥ・ランの非決定性を導入し、パス・アット・kが高いがMajority-at-kが低い信頼性ギャップを生じさせる。
単により多くのロールアウトをサンプリングしたり、長い推理トレースを生成するだけでは、新たな証拠が到着すると仮説を自律的にチェックすることはできず、信念の簿記と修正の明確なメカニズムが存在しないため、結果が確実に安定しない。
さらにReActは、ツールオーケストレーションや状態トラッキングといったコントローラの責務とセマンティック推論を関連付けている。
筆者らはこれらの問題を,依存グラフ上での帰納的推論とEoG(Explanations over Graphs)の提唱により定式化した。これは,LLMが境界のある局所的なエビデンスをマイニングし,ラベル付けを行うような非集約的なフレームワークであり,決定論的コントローラがトラバース,状態,信念の伝搬を管理して,最小の説明的フロンティアを計算する。
代表的なITBench診断タスクでは、EoGは、Majority-at-kエンティティF1の7倍の平均ゲインを含む、ReActベースライン上の正確性と実行時の一貫性の両方を改善している。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Abductive Inference in Retrieval-Augmented Language Models: Generating and Validating Missing Premises [0.0]
本稿では,帰納的推論をLLMに組み込むフレームワークを提案する。
帰納的推論とマルチホップQAベンチマークの実験結果から,本手法は解答精度と帰納的忠実度の両方を改善することが示された。
この研究は、RAGシステムの堅牢性と説明可能性を高めるための有望な方向として、帰納的推論を強調している。
論文 参考訳(メタデータ) (2025-11-06T03:37:24Z) - MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning Models [43.872922223495586]
大きな推論モデル(LRM)は複雑な推論において強い能力を示すが、証拠に依存した事実問題に対する限界的な利得は限られている。
この制限は、モデルが推論中に正しい事実を識別するが、最終的な応答にそれらを組み込むことができない、推論と問合せのギャップに起因する。
本稿では,外部検証に頼らずに事実性を高めるフレームワークMR-ALIGNを提案する。
論文 参考訳(メタデータ) (2025-10-27T15:00:54Z) - VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Patterns Over Principles: The Fragility of Inductive Reasoning in LLMs under Noisy Observations [43.491353243991284]
本稿では,雑音の多い例で融合したデータからルールを推論する際の,大規模言語モデルの能力を評価するタスクであるRobust Rule Injectionを紹介する。
1)SRRはノイズ下での性能劣化を最小限に抑えた他の手法よりも優れており、(2)若干の精度の変化にもかかわらず、LLMはノイズ下で不安定を示す。
論文 参考訳(メタデータ) (2025-02-22T10:03:19Z) - Retrieving Classes of Causal Orders with Inconsistent Knowledge Bases [0.8192907805418583]
大規模言語モデル(LLM)は、テキストベースのメタデータから因果的知識を抽出するための有望な代替手段として登場した。
LLMは信頼できない傾向があり、幻覚を起こす傾向があり、その限界を考慮に入れた戦略を必要とする。
本稿では,非循環型トーナメントのクラスを導出する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T16:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。