論文の概要: Decomposing Prediction Mechanisms for In-Context Recall
- arxiv url: http://arxiv.org/abs/2507.01414v1
- Date: Wed, 02 Jul 2025 07:09:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.077687
- Title: Decomposing Prediction Mechanisms for In-Context Recall
- Title(参考訳): インコンテキストリコールにおける予測機構の分解
- Authors: Sultan Daniels, Dylan Davis, Dhruv Gautam, Wentinn Liao, Gireeja Ranade, Anant Sahai,
- Abstract要約: 本稿では,線形回帰型連続文脈学習(ICL)と離散的連想的リコールを併用した新しい玩具問題群を紹介する。
我々は,変換器モデルが,対応するインコンテキストラベルを用いて,そのコンテキストで以前に見られたシーケンスの状態をリコールできるかどうかを考察する。
- 参考スコア(独自算出の注目度): 4.148170164455114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new family of toy problems that combine features of linear-regression-style continuous in-context learning (ICL) with discrete associative recall. We pretrain transformer models on sample traces from this toy, specifically symbolically-labeled interleaved state observations from randomly drawn linear deterministic dynamical systems. We study if the transformer models can recall the state of a sequence previously seen in its context when prompted to do so with the corresponding in-context label. Taking a closer look at this task, it becomes clear that the model must perform two functions: (1) identify which system's state should be recalled and apply that system to its last seen state, and (2) continuing to apply the correct system to predict the subsequent states. Training dynamics reveal that the first capability emerges well into a model's training. Surprisingly, the second capability, of continuing the prediction of a resumed sequence, develops much earlier. Via out-of-distribution experiments, and a mechanistic analysis on model weights via edge pruning, we find that next-token prediction for this toy problem involves at least two separate mechanisms. One mechanism uses the discrete symbolic labels to do the associative recall required to predict the start of a resumption of a previously seen sequence. The second mechanism, which is largely agnostic to the discrete symbolic labels, performs a "Bayesian-style" prediction based on the previous token and the context. These two mechanisms have different learning dynamics. To confirm that this multi-mechanism (manifesting as separate phase transitions) phenomenon is not just an artifact of our toy setting, we used OLMo training checkpoints on an ICL translation task to see a similar phenomenon: a decisive gap in the emergence of first-task-token performance vs second-task-token performance.
- Abstract(参考訳): 本稿では,線形回帰型連続文脈学習(ICL)と離散的連想的リコールを併用した新しい玩具問題群を紹介する。
我々は,この玩具から得られたサンプルトレースのトランスフォーマーモデル,特にランダムに描画された線形決定論的力学系からのシンボルラベル付きインターリーブ状態観察を事前訓練した。
我々は,変換器モデルが,対応するインコンテキストラベルを用いて,そのコンテキストで以前に見られたシーケンスの状態をリコールできるかどうかを考察する。
このタスクを詳しく見てみると,(1)どのシステムの状態をリコールすべきかを識別し,そのシステムを最後に見た状態に適用するか,(2)次の状態を予測するために適切なシステムを適用し続けるか,という2つの関数をモデルが実行しなければならないことが明らかになった。
トレーニングダイナミクスは、最初の能力がモデルのトレーニングにうまく現れることを示している。
驚くべきことに、再開されたシーケンスの予測を継続する第二の能力は、ずっと早く発達する。
分布外実験とエッジプルーニングによるモデルウェイトに関する力学解析により,この玩具問題の次なる予測には,少なくとも2つのメカニズムが関係していることが判明した。
1つのメカニズムは、離散的なシンボルラベルを使用して、以前に見られたシーケンスの再開の開始を予測するのに必要な連想的リコールを行う。
第2のメカニズムは、離散的なシンボルラベルに大きく依存せず、以前のトークンとコンテキストに基づいて「ベイジアンスタイル」の予測を行う。
これら2つのメカニズムは異なる学習力学を持つ。
ICL翻訳タスクでは,このマルチメカニシズム(相転移の要因)現象が単なる玩具設定の人工物ではないことを確認するために,OLMoトレーニングチェックポイントを用いて同様の現象を観測した。
関連論文リスト
- (How) Do Language Models Track State? [50.516691979518164]
トランスフォーマー言語モデル(LM)は、進化している世界の未観測状態を追跡する必要があるように見える振る舞いを示す。
順列を構成するために訓練された、あるいは微調整されたLMにおける状態追跡について検討した。
LMは2つの状態追跡機構のうちの1つを一貫して学習していることを示す。
論文 参考訳(メタデータ) (2025-03-04T18:31:02Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - From system models to class models: An in-context learning paradigm [0.0]
本稿では,1段階の予測と複数段階のシミュレーションという2つの主要な課題に対処する,システム識別のための新しいパラダイムを提案する。
動的システムのクラスを表すメタモデルを学ぶ。
一段階の予測では、GPTのようなデコーダのみのアーキテクチャを使用し、シミュレーション問題ではエンコーダ-デコーダ構造を用いる。
論文 参考訳(メタデータ) (2023-08-25T13:50:17Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Anticipating synchronization with machine learning [1.0958014189747356]
動的システムの応用においては、同期の開始を予測することが望ましい。
我々は,モデルフリーかつデータ駆動の予測フレームワークを開発した。
代表的なカオスモデルと小さなネットワークシステムを用いた機械学習ベースのフレームワークを実証する。
論文 参考訳(メタデータ) (2021-03-13T03:51:48Z) - A Novel Anomaly Detection Algorithm for Hybrid Production Systems based
on Deep Learning and Timed Automata [73.38551379469533]
DAD:DeepAnomalyDetectionは,ハイブリッド生産システムにおける自動モデル学習と異常検出のための新しいアプローチである。
深層学習とタイムドオートマトンを組み合わせて、観察から行動モデルを作成する。
このアルゴリズムは実システムからの2つのデータを含む少数のデータセットに適用され、有望な結果を示している。
論文 参考訳(メタデータ) (2020-10-29T08:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。