論文の概要: ReBeCA: Unveiling Interpretable Behavior Hierarchy behind the Iterative Self-Reflection of Language Models with Causal Analysis
- arxiv url: http://arxiv.org/abs/2602.06373v1
- Date: Fri, 06 Feb 2026 04:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.231082
- Title: ReBeCA: Unveiling Interpretable Behavior Hierarchy behind the Iterative Self-Reflection of Language Models with Causal Analysis
- Title(参考訳): ReBeCA: 因果解析による言語モデルの反復的自己回帰の背後にある解釈可能な行動階層
- Authors: Tianqiang Yan, Sihan Shang, Yuheng Li, Song Qiu, Hao Peng, Wenjian Luo, Jue Xie, Lizhen Qu, Yuan Gao,
- Abstract要約: textbftexttReflection textbftexttBehavior, textbftexttBehavior は自己回帰結果の解釈可能な行動階層を明らかにするフレームワークである。
自己回帰軌道を因果グラフとしてモデル化することにより、ReBeCAは真の性能決定因子を分離する。
- 参考スコア(独自算出の注目度): 35.12196884025294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While self-reflection can enhance language model reliability, its underlying mechanisms remain opaque, with existing analyses often yielding correlation-based insights that fail to generalize. To address this, we introduce \textbf{\texttt{ReBeCA}} (self-\textbf{\texttt{Re}}flection \textbf{\texttt{Be}}havior explained through \textbf{\texttt{C}}ausal \textbf{\texttt{A}}nalysis), a framework that unveils the interpretable behavioral hierarchy governing the self-reflection outcome. By modeling self-reflection trajectories as causal graphs, ReBeCA isolates genuine determinants of performance through a three-stage Invariant Causal Prediction (ICP) pipeline. We establish three critical findings: (1) \textbf{Behavioral hierarchy:} Semantic behaviors of the model influence final self-reflection results hierarchically: directly or indirectly; (2) \textbf{Causation matters:} Generalizability in self-reflection effects is limited to just a few semantic behaviors; (3) \textbf{More $\mathbf{\neq}$ better:} The confluence of seemingly positive semantic behaviors, even among direct causal factors, can impair the efficacy of self-reflection. ICP-based verification identifies sparse causal parents achieving up to $49.6\%$ structural likelihood gains, stable across tasks where correlation-based patterns fail. Intervention studies on novel datasets confirm these causal relationships hold out-of-distribution ($p = .013, η^2_\mathrm{p} = .071$). ReBeCA thus provides a rigorous methodology for disentangling genuine causal mechanisms from spurious associations in self-reflection dynamics.
- Abstract(参考訳): 自己回帰は言語モデルの信頼性を高めることができるが、その基盤となるメカニズムは不透明であり、既存の分析はしばしば一般化に失敗する相関に基づく洞察をもたらす。
これを解決するために、自己回帰結果を支配する解釈可能な振舞い階層を明らかにするフレームワークである \textbf{\textt{RebeCA}} (self-\textbf{\textt{Re}}flection \textbf{\textt{Be}}havior を紹介した。
自己回帰軌道を因果グラフとしてモデル化することにより、ReBeCAは3段階の不変因果予測(ICP)パイプラインを通じて真の性能決定因子を分離する。
1) モデルが与える意味的行動は, 直接的あるいは間接的に, (2) 自己回帰効果の一般性は, 少数の意味的行動に限られる; (3) 直接因果的要因の中でも, 一見正の意味的行動の相違は, 自己回帰の有効性を損なう可能性がある。
ICPに基づく検証では、相関に基づくパターンが失敗するタスクで安定している4,9.6 %$構造的可能性ゲインを達成できるスパース因果親を特定する。
新たなデータセットに対する介入研究は、これらの因果関係がアウト・オブ・ディストリビューション(p = .013, η^2_\mathrm{p} = .071$)を持つことを確認した。
したがって、ReBeCAは自己回帰力学における刺激的な関連から真の因果機構を遠ざけるための厳密な方法論を提供する。
関連論文リスト
- Scalable Contrastive Causal Discovery under Unknown Soft Interventions [3.165716101116899]
本稿では,2つの観測と干渉のペア化のためのスケーラブルな因果探索モデルを提案し,その基礎構造と未知のソフト介入について述べる。
合成データの実験では、因果構造回復の改善、保持された因果機構を持つ未知のグラフへの一般化、より大きなグラフへのスケーラビリティが示されている。
論文 参考訳(メタデータ) (2026-03-03T18:16:16Z) - CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching [50.65932158912512]
そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。
CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。
回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
論文 参考訳(メタデータ) (2026-02-23T18:06:15Z) - Causality is Key for Interpretability Claims to Generalise [35.833847356014154]
大規模言語モデル(LLM)の解釈可能性の研究は、モデル行動に関する重要な洞察をもたらした。
繰り返し発生する落とし穴: 一般化しない発見と、証拠を突破する因果解釈。
パールの因果的階層は、解釈可能性の研究が正当化できることを明確にする。
論文 参考訳(メタデータ) (2026-02-18T18:45:04Z) - Measuring and Mitigating Post-hoc Rationalization in Reverse Chain-of-Thought Generation [27.571918867764932]
我々はこの現象を3段階の測定階層で定式化する。
我々は、モデルに解答を無視するように指示する直感的な緩和戦略である意味的抑圧を解析する。
本研究では、まず、応答不変な機能骨格構造を生成する2相アプローチである構造骨格誘導推論(SSR)を提案する。
論文 参考訳(メタデータ) (2026-02-16T05:13:06Z) - Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure [58.89643769707751]
表現空間における潜在連鎖を操作可能な因果過程として研究する。
遅延ステップの予算は、均質な余分な深さよりも、非局所的なルーティングを備えたステージ機能のように振る舞う。
これらの結果は、モード条件と安定性を意識した分析を、潜伏推論システムの解釈と改善のための信頼性の高いツールとして動機付けている。
論文 参考訳(メタデータ) (2026-02-09T15:25:12Z) - CausalAffect: Causal Discovery for Facial Affective Understanding [26.904783570786773]
CausalAffectは、顔への影響分析における因果グラフ発見のための最初のフレームワークである。
私たちのアプローチでは、共同注釈付きデータセットも手作りの因果前処理も必要ありません。
トレーニングされたモデルとソースコードはすべて、受け入れ次第リリースされる。
論文 参考訳(メタデータ) (2025-11-29T12:07:33Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models [4.946483489399819]
大規模言語モデル(LLM)は、事実的に誤った文を生成する幻覚の傾向にある。
この研究は、3つの主要な貢献を通じて、この障害モードの本質的、アーキテクチャ的起源について調査する。
論文 参考訳(メタデータ) (2025-10-07T16:40:31Z) - LLM Assertiveness can be Mechanistically Decomposed into Emotional and Logical Components [0.17188280334580197]
LLM(Large Language Models)は、しばしば過剰な自信を示し、高い文脈で不確実性のある情報を提示する。
我々は、人間の注釈付きアサーション性データセットを微調整したオープンソースのLlama 3.2モデルを使用している。
分析により,アサーションのコントラストに最も敏感な層が同定され,高いアサーティブ表現が感情的・論理的クラスタの2つのサブコンポーネントに分解されることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-24T01:43:48Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment
Analysis [56.84237932819403]
本稿では,OODの高次一般化に対するテキストモダリティの悪影響を推定・緩和することを目的とする。
そこで本研究では,マルチモーダル感情分析のためのモデルに依存しない反現実的フレームワークを考案した。
論文 参考訳(メタデータ) (2022-07-24T03:57:40Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - Discovering Latent Causal Variables via Mechanism Sparsity: A New
Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。
潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文 参考訳(メタデータ) (2021-07-21T14:22:14Z) - Disentangling Observed Causal Effects from Latent Confounders using
Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。
我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文 参考訳(メタデータ) (2021-01-17T07:48:45Z) - Causal Autoregressive Flows [4.731404257629232]
自己回帰正規化フローの単純なファミリーと同定可能な因果モデルとの本質的な対応を強調した。
我々は、自己回帰フローアーキテクチャが、因果順序に類似した変数の順序を定義しているという事実を利用して、様々な因果推論タスクを実行するのに適していることを示す。
論文 参考訳(メタデータ) (2020-11-04T13:17:35Z) - The Curse of Performance Instability in Analysis Datasets: Consequences,
Source, and Suggestions [93.62888099134028]
自然言語推論(NLI)および読み込み(RC)解析/ストレスセットにおける最先端モデルの性能は極めて不安定であることがわかった。
このことは、(1)不安定さがこれらの分析セットに基づいて引き出された結論の信頼性にどのように影響するかという3つの疑問を提起する。
不安定の原因に関する理論的説明と実証的証拠の両方を提示する。
論文 参考訳(メタデータ) (2020-04-28T15:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。