Fugu-MT 論文翻訳(概要): Counterfactual reasoning: an analysis of in-context emergence

論文の概要: Counterfactual reasoning: an analysis of in-context emergence

arxiv url: http://arxiv.org/abs/2506.05188v1
Date: Thu, 05 Jun 2025 16:02:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.805081
Title: Counterfactual reasoning: an analysis of in-context emergence
Title（参考訳）: 因果推論--文脈内出現の分析
Authors: Moritz Miller, Bernhard Schölkopf, Siyuan Guo,
Abstract要約: 大規模ニューラルネットワークモデル(LM)は、文脈内学習において顕著な性能を示す。この研究は、言語モデルにおける文脈内対実的推論、すなわち仮説的シナリオの下での変化の結果を予測することを研究する。
参考スコア（独自算出の注目度）: 49.58529868457226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale neural language models (LMs) exhibit remarkable performance in in-context learning: the ability to learn and reason the input context on the fly without parameter update. This work studies in-context counterfactual reasoning in language models, that is, to predict the consequences of changes under hypothetical scenarios. We focus on studying a well-defined synthetic setup: a linear regression task that requires noise abduction, where accurate prediction is based on inferring and copying the contextual noise from factual observations. We show that language models are capable of counterfactual reasoning in this controlled setup and provide insights that counterfactual reasoning for a broad class of functions can be reduced to a transformation on in-context observations; we find self-attention, model depth, and data diversity in pre-training drive performance in Transformers. More interestingly, our findings extend beyond regression tasks and show that Transformers can perform noise abduction on sequential data, providing preliminary evidence on the potential for counterfactual story generation. Our code is available under https://github.com/moXmiller/counterfactual-reasoning.git .
Abstract（参考訳）: 大規模ニューラルネットワークモデル(LM)は、パラメータを更新することなく、オンザフライで入力コンテキストを学習し、推論する能力である、コンテキスト内学習において顕著なパフォーマンスを示す。この研究は、言語モデルにおける文脈内対実的推論、すなわち仮説的シナリオの下での変化の結果を予測することを研究する。そこでは,実測からコンテキストノイズを推測・複写し,正確な予測を行う線形回帰タスクについて検討する。この制御された設定において、言語モデルは反実的推論が可能であることを示し、幅広い種類の関数に対する反実的推論は、文脈内観察における変換に還元可能であることを示し、トランスフォーマーの事前学習駆動性能において、自己注意、モデル深さ、データの多様性を見出す。さらに興味深いことに、我々の発見は回帰タスクを超えて、トランスフォーマーがシーケンシャルデータ上でノイズ除去を行うことが可能であることを示し、反実的なストーリー生成の可能性に関する予備的な証拠を提供する。私たちのコードはhttps://github.com/moXmiller/counterfactual-reasoning.gitで利用可能です。

関連論文リスト

Context-Informed Grounding Supervision [102.11698329887226]
コンテキストインフォームド・グラウンド(Context-Informed Grounding Supervision, CINGS)は、モデルが応答に先立って関連するコンテキストでトレーニングされる訓練後の監督である。実験により, CINGSで訓練したモデルでは, テキスト領域と視覚領域の両方において, より強い基底が示されることがわかった。
論文参考訳（メタデータ） (2025-06-18T14:13:56Z)
In-Context Learning (and Unlearning) of Length Biases [19.740652268957522]
モデルが予測のためにコンテキストウィンドウで長さバイアスを学習することを示す。さらに、モデルが示すバイアスのレベルを変調する要因を実験的に分析する。これは、コストのかかるパラメータ更新を必要とせず、モデル予測の振る舞いを嫌う場合に、コンテキスト内学習のパワーを明らかにする。
論文参考訳（メタデータ） (2025-02-10T16:43:32Z)
Spin glass model of in-context learning [2.285821277711785]
線形アテンションを持つ変圧器について検討し、この構造を実数値スピンを持つスピンガラスモデルにマッピングする。我々の理論は、単一インスタンス学習においてタスクの多様性の増大がコンテキスト内学習の出現に繋がることを示している。提案した解析的抽出可能なモデルでは,大言語モデルの多くの興味をそそる性質をどう解釈するかを考える上で,有望な道筋が提供される。
論文参考訳（メタデータ） (2024-08-05T07:54:01Z)
Probabilistic Transformer: A Probabilistic Dependency Model for Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文参考訳（メタデータ） (2023-11-26T06:56:02Z)
In-Context Learning through the Bayesian Prism [16.058624485018207]
In-context Learning (ICL) は、大きな言語モデルの驚くべき特徴の1つである。本稿では,このベイズ的視点がICLの理解にどの程度役立つのかを実証的に検討する。
論文参考訳（メタデータ） (2023-06-08T02:38:23Z)
Inverse Dynamics Pretraining Learns Good Representations for Multitask Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。逆動力学モデリングはこの設定に適していると主張する。
論文参考訳（メタデータ） (2023-05-26T14:40:46Z)
Attention-likelihood relationship in transformers [2.8304391396200064]
我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。我々の可能性誘導型テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。
論文参考訳（メタデータ） (2023-03-15T00:23:49Z)
On the Effect of Pre-training for Transformer in Different Modality on Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文参考訳（メタデータ） (2022-11-17T13:34:08Z)
Recoding latent sentence representations -- Dynamic gradient-based activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文参考訳（メタデータ） (2021-01-03T17:54:17Z)
Back to the Future: Unsupervised Backprop-based Decoding for Counterfactual and Abductive Commonsense Reasoning [79.48769764508006]
ジェネレーティブ言語モデル(LM)は、過去の文脈のみを条件にするか、狭い範囲のテキスト入力を実行するよう訓練することができる。我々は過去と将来の両方の文脈を柔軟に組み込むことができる新しい教師なし復号アルゴリズムであるDeLoreanを提案する。提案手法は, 帰納的テキスト生成と反事実的ストーリーリビジョンの2つの非単調推論タスクに適用可能であることを示す。
論文参考訳（メタデータ） (2020-10-12T17:58:43Z)
Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文参考訳（メタデータ） (2020-06-11T17:02:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。