論文の概要: Thought Branches: Interpreting LLM Reasoning Requires Resampling
- arxiv url: http://arxiv.org/abs/2510.27484v1
- Date: Fri, 31 Oct 2025 14:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.120511
- Title: Thought Branches: Interpreting LLM Reasoning Requires Resampling
- Title(参考訳): 思考の枝: LLM推論を解釈するには再サンプリングが必要である
- Authors: Uzay Macar, Paul C. Bogdan, Senthooran Rajamanoharan, Neel Nanda,
- Abstract要約: 一つのサンプルを研究することは因果的影響と基礎となる計算を理解するのに不十分であると主張する。
モデル決定のための再サンプリングを用いたケーススタディを提案する。
- 参考スコア(独自算出の注目度): 10.978878422025232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most work interpreting reasoning models studies only a single chain-of-thought (CoT), yet these models define distributions over many possible CoTs. We argue that studying a single sample is inadequate for understanding causal influence and the underlying computation. Though fully specifying this distribution is intractable, it can be understood by sampling. We present case studies using resampling to investigate model decisions. First, when a model states a reason for its action, does that reason actually cause the action? In "agentic misalignment" scenarios, we resample specific sentences to measure their downstream effects. Self-preservation sentences have small causal impact, suggesting they do not meaningfully drive blackmail. Second, are artificial edits to CoT sufficient for steering reasoning? These are common in literature, yet take the model off-policy. Resampling and selecting a completion with the desired property is a principled on-policy alternative. We find off-policy interventions yield small and unstable effects compared to resampling in decision-making tasks. Third, how do we understand the effect of removing a reasoning step when the model may repeat it post-edit? We introduce a resilience metric that repeatedly resamples to prevent similar content from reappearing downstream. Critical planning statements resist removal but have large effects when eliminated. Fourth, since CoT is sometimes "unfaithful", can our methods teach us anything in these settings? Adapting causal mediation analysis, we find that hints that have a causal effect on the output without being explicitly mentioned exert a subtle and cumulative influence on the CoT that persists even if the hint is removed. Overall, studying distributions via resampling enables reliable causal analysis, clearer narratives of model reasoning, and principled CoT interventions.
- Abstract(参考訳): ほとんどの研究では、推論モデルは1つのチェーン・オブ・シント(CoT)のみを研究するが、これらのモデルは多くの可能なCoT上の分布を定義する。
一つのサンプルを研究することは因果的影響と基礎となる計算を理解するのに不十分であると主張する。
この分布を完全に特定することは難解であるが、サンプリングによって理解することができる。
モデル決定のための再サンプリングを用いたケーススタディを提案する。
まず、モデルがアクションの理由を述べるとき、その理由は実際にアクションを引き起こすのか?
誤アライメント」のシナリオでは、特定の文を再サンプリングし、下流の効果を測定します。
自己保存文は因果的影響が小さいため、意味のある脅迫を起こさないことを示唆している。
第二に、CoTへの人工的な編集は、推論を操るのに十分か?
これらは文学では一般的だが、非政治的なモデルを取る。
所望のプロパティで完了を再サンプリングし、選択することは、原則化された政治上の代替手段である。
政策外の介入は、意思決定タスクの再サンプリングに比べて小さく不安定な効果をもたらす。
第三に、モデルが再編集した後に推論ステップを除去する効果をどうやって理解すればよいのか?
我々は、類似コンテンツが下流で再び現れるのを防ぐために、繰り返し再サンプリングするレジリエンス指標を導入する。
批判的な計画文は除去に抵抗するが、除去すると大きな効果がある。
第4に、CoTは時に“不信”であるので、私たちのメソッドはこれらの設定で何か教えてくれますか?
因果媒介分析に適応して、明示的に言及されることなく出力に因果効果を持つヒントがCoTに微妙で累積的な影響を及ぼし、ヒントが取り除かれても持続することがわかった。
全体として、再サンプリングによる分布の研究は、信頼性の高い因果解析、モデル推論のより明確な物語、原則化されたCoT介入を可能にする。
関連論文リスト
- Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - Boosting Temporal Sentence Grounding via Causal Inference [55.61521060331558]
テンポラル・センテンス・グラウンディング(Temporal Sentence Grounding)は、あるテキストクエリに意味的に対応するビデオ中の関連モーメントを特定することを目的としている。
これらの素因的相関は,(1) 特定の動詞や句の頻繁な共起など,テキストデータに固有の偏り,(2) ビデオコンテンツにおける顕著なパターンや反復パターンに過度に適合する傾向,の2つの要因から生じる。
本稿では, 因果推論を利用した新たなTSGフレームワーク, 因果介入, 反ファクト推論を提案する。
論文 参考訳(メタデータ) (2025-07-07T13:01:06Z) - Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。
自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。
以上の結果から, SDE 動態下での反実的推論が可能となった。
論文 参考訳(メタデータ) (2025-06-05T16:02:07Z) - Counterfactual Realizability [52.85109506684737]
本稿では, 正規化可能性の定義, 分布からサンプルを抽出する能力を導入し, 任意の反事実分布が実現可能であるかどうかを判定する完全アルゴリズムを開発する。
本稿では、因果的公正さと因果的強化学習のモチベーション例を用いて、この新たな反ファクト的データ収集フレームワークの意義を説明する。
論文 参考訳(メタデータ) (2025-03-14T20:54:27Z) - Rethinking harmless refusals when fine-tuning foundation models [0.8571111167616167]
本研究では,Large Language Models (LLMs) における微調整が,望ましくない振る舞いを隠蔽するだけでなく,効果的に緩和する程度について検討する。
ここでは、モデルが推論トレースの生成を止めるか、最終的なアウトプットの非倫理的な性質を損なうような倫理的推論トレースを生成するかのどちらかである。
論文 参考訳(メタデータ) (2024-06-27T22:08:22Z) - Preemptive Answer "Attacks" on Chain-of-Thought Reasoning [7.233752893356647]
大きな言語モデル(LLM)は、Chain-of-Thoughtプロンプトと組み合わせることで、印象的な推論機能を示す。
本稿では, LLMが推論に係わる前に解答を得る, プリエンプティブな解答という新しいシナリオを紹介する。
実験により、プリエンプティブな回答は、さまざまなCoTメソッドと幅広いデータセットにわたるモデルの推論能力を著しく損なうことが明らかになった。
論文 参考訳(メタデータ) (2024-05-31T15:15:04Z) - Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting [43.458726163197824]
大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。
モデル予測の真の理由を,CoT の説明が体系的に誤って表現できることが判明した。
論文 参考訳(メタデータ) (2023-05-07T22:44:25Z) - Active Bayesian Causal Inference [72.70593653185078]
因果発見と推論を統合するための完全ベイズ能動学習フレームワークであるアクティブベイズ因果推論(ABCI)を提案する。
ABCIは因果関係のモデルと関心のクエリを共同で推論する。
我々のアプローチは、完全な因果グラフの学習のみに焦点を当てた、いくつかのベースラインよりも、よりデータ効率が高いことを示す。
論文 参考訳(メタデータ) (2022-06-04T22:38:57Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z) - Superdeterministic hidden-variables models I: nonequilibrium and
signalling [0.0]
まず、超決定論の概要を述べ、その文献における様々な批判について論じる。
ベルの直感的な批判は、これらのモデルは陰謀的だ」と述べた。
論文 参考訳(メタデータ) (2020-03-26T15:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。