論文の概要: Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents
- arxiv url: http://arxiv.org/abs/2601.02314v1
- Date: Mon, 05 Jan 2026 18:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.343279
- Title: Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents
- Title(参考訳): Project Ariadne: LLMエージェントの忠実さを監査するための構造的因果関係
- Authors: Sourena Khanzadeh,
- Abstract要約: エージェント推論の因果的整合性を評価するための新しいXAIフレームワークである textbfProject Ariadne を紹介する。
表面レベルのテキスト類似性に依存する既存の解釈可能性メソッドとは異なり、Project Ariadne は中間推論ノードに対して textbfhard の介入(do$-calculus)を行う。
我々の最先端モデルに対する実証的な評価は、永続的なテクスチャフルネスギャップを明らかにします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Model (LLM) agents are increasingly tasked with high-stakes autonomous decision-making, the transparency of their reasoning processes has become a critical safety concern. While \textit{Chain-of-Thought} (CoT) prompting allows agents to generate human-readable reasoning traces, it remains unclear whether these traces are \textbf{faithful} generative drivers of the model's output or merely \textbf{post-hoc rationalizations}. We introduce \textbf{Project Ariadne}, a novel XAI framework that utilizes Structural Causal Models (SCMs) and counterfactual logic to audit the causal integrity of agentic reasoning. Unlike existing interpretability methods that rely on surface-level textual similarity, Project Ariadne performs \textbf{hard interventions} ($do$-calculus) on intermediate reasoning nodes -- systematically inverting logic, negating premises, and reversing factual claims -- to measure the \textbf{Causal Sensitivity} ($φ$) of the terminal answer. Our empirical evaluation of state-of-the-art models reveals a persistent \textit{Faithfulness Gap}. We define and detect a widespread failure mode termed \textbf{Causal Decoupling}, where agents exhibit a violation density ($ρ$) of up to $0.77$ in factual and scientific domains. In these instances, agents arrive at identical conclusions despite contradictory internal logic, proving that their reasoning traces function as "Reasoning Theater" while decision-making is governed by latent parametric priors. Our findings suggest that current agentic architectures are inherently prone to unfaithful explanation, and we propose the Ariadne Score as a new benchmark for aligning stated logic with model action.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、自律的な意思決定の高度化にますます取り組まれているため、推論プロセスの透明性が重要な安全上の問題となっている。
\textit{Chain-of-Thought} (CoT) では、エージェントが人間の読みやすい推論トレースを生成することができるが、これらのトレースがモデルの出力の‘textbf{faithful’生成ドライバなのか、単に‘textbf{post-hoc rationalizations} なのかは不明だ。
本稿では,構造因果モデル (Structure Causal Models, SCM) と反現実論理を用いてエージェント推論の因果的整合性を評価する新しいXAIフレームワークである「textbf{Project Ariadne}」を紹介する。
表面レベルのテキストの類似性に依存する既存の解釈可能性メソッドとは異なり、Project Ariadneは中間推論ノード(論理を体系的に反転させ、前提を否定し、事実的クレームを反転させる)に対して、端末応答の「textbf{Causal Sensitivity}」(φ$)を測定するために「textbf{hard interventions}」(do$-calculus)を実行する。
我々の最先端モデルに対する実証的な評価は、持続的な \textit{Faithfulness Gap} を示す。
エージェントが0.77ドルまでの違反密度(ρ$)を現実的および科学的な領域で表すような、‘textbf{Causal Decoupling’と呼ばれる広範な障害モードを定義し、検出する。
これらの例では、エージェントは矛盾する内部論理にも拘わらず同じ結論に達し、彼らの推論トレースが「推論劇場」として機能し、意思決定は潜在パラメトリックの先行によって支配されていることを証明している。
この結果から,現在のエージェントアーキテクチャは本質的に不信な説明をしにくいことが示唆され,モデルアクションと論理を整合させる新しいベンチマークとしてAriadne Scoreを提案する。
関連論文リスト
- The Seeds of Scheming: Weakness of Will in the Building Blocks of Agentic Systems [0.0]
大規模な言語モデルは、独特な形の矛盾を示す: 彼らは正しい答えを「知る」が、それに対して行動しない。
人間の哲学では、世界的判断と地域的衝動の間のこの緊張関係を「ウクライナ」または「意志の弱さ」と呼ぶ。
本稿では,エージェントAIシステムにおける不整合とゴールドリフトを分析するための基礎概念として,ウクライナを提案する。
論文 参考訳(メタデータ) (2025-12-05T05:57:40Z) - Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models [7.18947815679122]
内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:31:21Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-03T17:01:53Z) - A Comment On "The Illusion of Thinking": Reframing the Reasoning Cliff as an Agentic Gap [0.39073867995073247]
我々は、観測された失敗は基本的な認知境界の証拠ではなく、システムレベルの制約の予測可能な結果であると主張している。
当初、テキストのみの世代に限定してパズルを宣言することは不可能であると宣言されたモデルは、現在ではエージェントツールを使用して解決するだけでなく、それまで克服できなかった難易度をはるかに超える複雑さを習得している。
論文 参考訳(メタデータ) (2025-06-23T17:14:21Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Logically Consistent Adversarial Attacks for Soft Theorem Provers [110.17147570572939]
本稿では,言語モデルの推論能力の探索と改善のための生成的逆説フレームワークを提案する。
我々のフレームワークは、敵の攻撃をうまく発生させ、グローバルな弱点を識別する。
有効探索に加えて, 生成したサンプルのトレーニングにより, 対象モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T19:10:12Z) - Measuring Association Between Labels and Free-Text Rationales [60.58672852655487]
解釈可能なNLPでは、説明された例に対するモデルの意思決定プロセスを反映した忠実な理性が必要です。
情報抽出型タスクに対する忠実な抽出合理化のための既存のモデルであるパイプラインは、自由テキスト合理化を必要とするタスクに確実に拡張されないことを示す。
我々は、信頼が確立されていない自由文合理化のための、広く使われている高性能モデルのクラスである、共同予測と合理化のモデルに目を向ける。
論文 参考訳(メタデータ) (2020-10-24T03:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。