論文の概要: Counterfactual reasoning: an analysis of in-context emergence
- arxiv url: http://arxiv.org/abs/2506.05188v2
- Date: Tue, 21 Oct 2025 16:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:07.623049
- Title: Counterfactual reasoning: an analysis of in-context emergence
- Title(参考訳): 因果推論--文脈内出現の分析
- Authors: Moritz Miller, Bernhard Schölkopf, Siyuan Guo,
- Abstract要約: 我々は、言語モデルが反実的推論が可能なことを示す。
自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。
以上の結果から, SDE 動態下での反実的推論が可能となった。
- 参考スコア(独自算出の注目度): 57.118735341305786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale neural language models exhibit remarkable performance in in-context learning: the ability to learn and reason about the input context on the fly. This work studies in-context counterfactual reasoning in language models, that is, the ability to predict consequences of a hypothetical scenario. We focus on a well-defined, synthetic linear regression task that requires noise abduction. Accurate prediction is based on (1) inferring an unobserved latent concept and (2) copying contextual noise from factual observations. We show that language models are capable of counterfactual reasoning. Further, we enhance existing identifiability results and reduce counterfactual reasoning for a broad class of functions to a transformation on in-context observations. In Transformers, we find that self-attention, model depth and pre-training data diversity drive performance. Moreover, we provide mechanistic evidence that the latent concept is linearly represented in the residual stream and we introduce designated \textit{noise abduction heads} central to performing counterfactual reasoning. Lastly, our findings extend to counterfactual reasoning under SDE dynamics and reflect that Transformers can perform noise abduction on sequential data, providing preliminary evidence on the potential for counterfactual story generation. Our code is available under https://github.com/mrtzmllr/iccr.
- Abstract(参考訳): 大規模ニューラルネットワークモデルは、オンザフライで入力コンテキストを学習し、推論する能力である、コンテキスト内学習において顕著なパフォーマンスを示す。
この研究は、言語モデル、すなわち仮説的シナリオの結果を予測する能力において、コンテキスト内の対実的推論を研究する。
ノイズ除去を必要とする線形回帰タスクを適切に定義し、合成することに焦点を当てる。
正確な予測は,(1)未観測の潜在概念を推定し,(2)実測から文脈ノイズを再現することに基づく。
我々は、言語モデルが反実的推論が可能なことを示す。
さらに、既存の識別可能性の向上と、幅広い種類の関数に対する反実的推論を、文脈内観測における変換に還元する。
Transformersでは、自己注意、モデル深度、事前学習したデータの多様性がパフォーマンスを向上させる。
さらに, 残留流に潜伏概念が線形に表現されているという機構的証拠を提供し, 反実的推論を行うために, 中央に指定された「textit{noise abduction head」を導入する。
最後に,本研究の成果は,SDE力学下での反実的推論にまで拡張し,変換器が逐次的データに対してノイズ除去を行うことができることを反映し,反実的ストーリー生成の可能性に関する予備的証拠を提供する。
私たちのコードはhttps://github.com/mrtzmllr/iccr.comで利用可能です。
関連論文リスト
- Context-Informed Grounding Supervision [102.11698329887226]
コンテキストインフォームド・グラウンド(Context-Informed Grounding Supervision, CINGS)は、モデルが応答に先立って関連するコンテキストでトレーニングされる訓練後の監督である。
実験により, CINGSで訓練したモデルでは, テキスト領域と視覚領域の両方において, より強い基底が示されることがわかった。
論文 参考訳(メタデータ) (2025-06-18T14:13:56Z) - In-Context Learning (and Unlearning) of Length Biases [19.740652268957522]
モデルが予測のためにコンテキストウィンドウで長さバイアスを学習することを示す。
さらに、モデルが示すバイアスのレベルを変調する要因を実験的に分析する。
これは、コストのかかるパラメータ更新を必要とせず、モデル予測の振る舞いを嫌う場合に、コンテキスト内学習のパワーを明らかにする。
論文 参考訳(メタデータ) (2025-02-10T16:43:32Z) - Spin glass model of in-context learning [2.285821277711785]
線形アテンションを持つ変圧器について検討し、この構造を実数値スピンを持つスピンガラスモデルにマッピングする。
我々の理論は、単一インスタンス学習においてタスクの多様性の増大がコンテキスト内学習の出現に繋がることを示している。
提案した解析的抽出可能なモデルでは,大言語モデルの多くの興味をそそる性質をどう解釈するかを考える上で,有望な道筋が提供される。
論文 参考訳(メタデータ) (2024-08-05T07:54:01Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - In-Context Learning through the Bayesian Prism [16.058624485018207]
In-context Learning (ICL) は、大きな言語モデルの驚くべき特徴の1つである。
本稿では,このベイズ的視点がICLの理解にどの程度役立つのかを実証的に検討する。
論文 参考訳(メタデータ) (2023-06-08T02:38:23Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Attention-likelihood relationship in transformers [2.8304391396200064]
我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。
我々の可能性誘導型テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-03-15T00:23:49Z) - On the Effect of Pre-training for Transformer in Different Modality on
Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2022-11-17T13:34:08Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z) - Back to the Future: Unsupervised Backprop-based Decoding for
Counterfactual and Abductive Commonsense Reasoning [79.48769764508006]
ジェネレーティブ言語モデル(LM)は、過去の文脈のみを条件にするか、狭い範囲のテキスト入力を実行するよう訓練することができる。
我々は過去と将来の両方の文脈を柔軟に組み込むことができる新しい教師なし復号アルゴリズムであるDeLoreanを提案する。
提案手法は, 帰納的テキスト生成と反事実的ストーリーリビジョンの2つの非単調推論タスクに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-10-12T17:58:43Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。