論文の概要: Counterfactual reasoning: an analysis of in-context emergence
- arxiv url: http://arxiv.org/abs/2506.05188v1
- Date: Thu, 05 Jun 2025 16:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.805081
- Title: Counterfactual reasoning: an analysis of in-context emergence
- Title(参考訳): 因果推論--文脈内出現の分析
- Authors: Moritz Miller, Bernhard Schölkopf, Siyuan Guo,
- Abstract要約: 大規模ニューラルネットワークモデル(LM)は、文脈内学習において顕著な性能を示す。
この研究は、言語モデルにおける文脈内対実的推論、すなわち仮説的シナリオの下での変化の結果を予測することを研究する。
- 参考スコア(独自算出の注目度): 49.58529868457226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale neural language models (LMs) exhibit remarkable performance in in-context learning: the ability to learn and reason the input context on the fly without parameter update. This work studies in-context counterfactual reasoning in language models, that is, to predict the consequences of changes under hypothetical scenarios. We focus on studying a well-defined synthetic setup: a linear regression task that requires noise abduction, where accurate prediction is based on inferring and copying the contextual noise from factual observations. We show that language models are capable of counterfactual reasoning in this controlled setup and provide insights that counterfactual reasoning for a broad class of functions can be reduced to a transformation on in-context observations; we find self-attention, model depth, and data diversity in pre-training drive performance in Transformers. More interestingly, our findings extend beyond regression tasks and show that Transformers can perform noise abduction on sequential data, providing preliminary evidence on the potential for counterfactual story generation. Our code is available under https://github.com/moXmiller/counterfactual-reasoning.git .
- Abstract(参考訳): 大規模ニューラルネットワークモデル(LM)は、パラメータを更新することなく、オンザフライで入力コンテキストを学習し、推論する能力である、コンテキスト内学習において顕著なパフォーマンスを示す。
この研究は、言語モデルにおける文脈内対実的推論、すなわち仮説的シナリオの下での変化の結果を予測することを研究する。
そこでは,実測からコンテキストノイズを推測・複写し,正確な予測を行う線形回帰タスクについて検討する。
この制御された設定において、言語モデルは反実的推論が可能であることを示し、幅広い種類の関数に対する反実的推論は、文脈内観察における変換に還元可能であることを示し、トランスフォーマーの事前学習駆動性能において、自己注意、モデル深さ、データの多様性を見出す。
さらに興味深いことに、我々の発見は回帰タスクを超えて、トランスフォーマーがシーケンシャルデータ上でノイズ除去を行うことが可能であることを示し、反実的なストーリー生成の可能性に関する予備的な証拠を提供する。
私たちのコードはhttps://github.com/moXmiller/counterfactual-reasoning.gitで利用可能です。
関連論文リスト
- Spin glass model of in-context learning [2.285821277711785]
線形アテンションを持つ変圧器について検討し、この構造を実数値スピンを持つスピンガラスモデルにマッピングする。
我々の理論は、単一インスタンス学習においてタスクの多様性の増大がコンテキスト内学習の出現に繋がることを示している。
提案した解析的抽出可能なモデルでは,大言語モデルの多くの興味をそそる性質をどう解釈するかを考える上で,有望な道筋が提供される。
論文 参考訳(メタデータ) (2024-08-05T07:54:01Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - In-Context Learning through the Bayesian Prism [16.058624485018207]
In-context Learning (ICL) は、大きな言語モデルの驚くべき特徴の1つである。
本稿では,このベイズ的視点がICLの理解にどの程度役立つのかを実証的に検討する。
論文 参考訳(メタデータ) (2023-06-08T02:38:23Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - On the Effect of Pre-training for Transformer in Different Modality on
Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2022-11-17T13:34:08Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z) - Back to the Future: Unsupervised Backprop-based Decoding for
Counterfactual and Abductive Commonsense Reasoning [79.48769764508006]
ジェネレーティブ言語モデル(LM)は、過去の文脈のみを条件にするか、狭い範囲のテキスト入力を実行するよう訓練することができる。
我々は過去と将来の両方の文脈を柔軟に組み込むことができる新しい教師なし復号アルゴリズムであるDeLoreanを提案する。
提案手法は, 帰納的テキスト生成と反事実的ストーリーリビジョンの2つの非単調推論タスクに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-10-12T17:58:43Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。