論文の概要: ReBeCA: Unveiling Interpretable Behavior Hierarchy behind the Iterative Self-Reflection of Language Models with Causal Analysis
- arxiv url: http://arxiv.org/abs/2602.06373v1
- Date: Fri, 06 Feb 2026 04:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.231082
- Title: ReBeCA: Unveiling Interpretable Behavior Hierarchy behind the Iterative Self-Reflection of Language Models with Causal Analysis
- Title(参考訳): ReBeCA: 因果解析による言語モデルの反復的自己回帰の背後にある解釈可能な行動階層
- Authors: Tianqiang Yan, Sihan Shang, Yuheng Li, Song Qiu, Hao Peng, Wenjian Luo, Jue Xie, Lizhen Qu, Yuan Gao,
- Abstract要約: textbftexttReflection textbftexttBehavior, textbftexttBehavior は自己回帰結果の解釈可能な行動階層を明らかにするフレームワークである。
自己回帰軌道を因果グラフとしてモデル化することにより、ReBeCAは真の性能決定因子を分離する。
- 参考スコア(独自算出の注目度): 35.12196884025294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While self-reflection can enhance language model reliability, its underlying mechanisms remain opaque, with existing analyses often yielding correlation-based insights that fail to generalize. To address this, we introduce \textbf{\texttt{ReBeCA}} (self-\textbf{\texttt{Re}}flection \textbf{\texttt{Be}}havior explained through \textbf{\texttt{C}}ausal \textbf{\texttt{A}}nalysis), a framework that unveils the interpretable behavioral hierarchy governing the self-reflection outcome. By modeling self-reflection trajectories as causal graphs, ReBeCA isolates genuine determinants of performance through a three-stage Invariant Causal Prediction (ICP) pipeline. We establish three critical findings: (1) \textbf{Behavioral hierarchy:} Semantic behaviors of the model influence final self-reflection results hierarchically: directly or indirectly; (2) \textbf{Causation matters:} Generalizability in self-reflection effects is limited to just a few semantic behaviors; (3) \textbf{More $\mathbf{\neq}$ better:} The confluence of seemingly positive semantic behaviors, even among direct causal factors, can impair the efficacy of self-reflection. ICP-based verification identifies sparse causal parents achieving up to $49.6\%$ structural likelihood gains, stable across tasks where correlation-based patterns fail. Intervention studies on novel datasets confirm these causal relationships hold out-of-distribution ($p = .013, η^2_\mathrm{p} = .071$). ReBeCA thus provides a rigorous methodology for disentangling genuine causal mechanisms from spurious associations in self-reflection dynamics.
- Abstract(参考訳): 自己回帰は言語モデルの信頼性を高めることができるが、その基盤となるメカニズムは不透明であり、既存の分析はしばしば一般化に失敗する相関に基づく洞察をもたらす。
これを解決するために、自己回帰結果を支配する解釈可能な振舞い階層を明らかにするフレームワークである \textbf{\textt{RebeCA}} (self-\textbf{\textt{Re}}flection \textbf{\textt{Be}}havior を紹介した。
自己回帰軌道を因果グラフとしてモデル化することにより、ReBeCAは3段階の不変因果予測(ICP)パイプラインを通じて真の性能決定因子を分離する。
1) モデルが与える意味的行動は, 直接的あるいは間接的に, (2) 自己回帰効果の一般性は, 少数の意味的行動に限られる; (3) 直接因果的要因の中でも, 一見正の意味的行動の相違は, 自己回帰の有効性を損なう可能性がある。
ICPに基づく検証では、相関に基づくパターンが失敗するタスクで安定している4,9.6 %$構造的可能性ゲインを達成できるスパース因果親を特定する。
新たなデータセットに対する介入研究は、これらの因果関係がアウト・オブ・ディストリビューション(p = .013, η^2_\mathrm{p} = .071$)を持つことを確認した。
したがって、ReBeCAは自己回帰力学における刺激的な関連から真の因果機構を遠ざけるための厳密な方法論を提供する。
関連論文リスト
- CausalAffect: Causal Discovery for Facial Affective Understanding [26.904783570786773]
CausalAffectは、顔への影響分析における因果グラフ発見のための最初のフレームワークである。
私たちのアプローチでは、共同注釈付きデータセットも手作りの因果前処理も必要ありません。
トレーニングされたモデルとソースコードはすべて、受け入れ次第リリースされる。
論文 参考訳(メタデータ) (2025-11-29T12:07:33Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models [4.946483489399819]
大規模言語モデル(LLM)は、事実的に誤った文を生成する幻覚の傾向にある。
この研究は、3つの主要な貢献を通じて、この障害モードの本質的、アーキテクチャ的起源について調査する。
論文 参考訳(メタデータ) (2025-10-07T16:40:31Z) - LLM Assertiveness can be Mechanistically Decomposed into Emotional and Logical Components [0.17188280334580197]
LLM(Large Language Models)は、しばしば過剰な自信を示し、高い文脈で不確実性のある情報を提示する。
我々は、人間の注釈付きアサーション性データセットを微調整したオープンソースのLlama 3.2モデルを使用している。
分析により,アサーションのコントラストに最も敏感な層が同定され,高いアサーティブ表現が感情的・論理的クラスタの2つのサブコンポーネントに分解されることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-24T01:43:48Z) - Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment
Analysis [56.84237932819403]
本稿では,OODの高次一般化に対するテキストモダリティの悪影響を推定・緩和することを目的とする。
そこで本研究では,マルチモーダル感情分析のためのモデルに依存しない反現実的フレームワークを考案した。
論文 参考訳(メタデータ) (2022-07-24T03:57:40Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Disentangling Observed Causal Effects from Latent Confounders using
Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。
我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文 参考訳(メタデータ) (2021-01-17T07:48:45Z) - Causal Autoregressive Flows [4.731404257629232]
自己回帰正規化フローの単純なファミリーと同定可能な因果モデルとの本質的な対応を強調した。
我々は、自己回帰フローアーキテクチャが、因果順序に類似した変数の順序を定義しているという事実を利用して、様々な因果推論タスクを実行するのに適していることを示す。
論文 参考訳(メタデータ) (2020-11-04T13:17:35Z) - The Curse of Performance Instability in Analysis Datasets: Consequences,
Source, and Suggestions [93.62888099134028]
自然言語推論(NLI)および読み込み(RC)解析/ストレスセットにおける最先端モデルの性能は極めて不安定であることがわかった。
このことは、(1)不安定さがこれらの分析セットに基づいて引き出された結論の信頼性にどのように影響するかという3つの疑問を提起する。
不安定の原因に関する理論的説明と実証的証拠の両方を提示する。
論文 参考訳(メタデータ) (2020-04-28T15:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。