論文の概要: Out-of-Distribution Generalization of In-Context Learning: A Low-Dimensional Subspace Perspective
- arxiv url: http://arxiv.org/abs/2505.14808v1
- Date: Tue, 20 May 2025 18:15:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.698473
- Title: Out-of-Distribution Generalization of In-Context Learning: A Low-Dimensional Subspace Perspective
- Title(参考訳): インコンテクスト学習におけるアウト・オブ・ディストリビューションの一般化--低次元部分空間の視点から
- Authors: Soo Min Kwon, Alec S. Xu, Can Yaras, Laura Balzano, Qing Qu,
- Abstract要約: 低ランクな共分散行列でパラメータ化された線形回帰タスクを研究することにより、ICL(In-context Learning)のアウト・オブ・ディストリビューション能力をデミステライズする。
単層線形アテンションモデルが角度に依存しないテストリスクを生じさせることを証明し、ICLがそのような分布シフトに対して堅牢でないことを示す。
これは、トランスフォーマーのOOD一般化能力は、実際にトレーニング中に遭遇したタスクの範囲内にある新しいタスクに由来する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 9.249642973141107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to demystify the out-of-distribution (OOD) capabilities of in-context learning (ICL) by studying linear regression tasks parameterized with low-rank covariance matrices. With such a parameterization, we can model distribution shifts as a varying angle between the subspace of the training and testing covariance matrices. We prove that a single-layer linear attention model incurs a test risk with a non-negligible dependence on the angle, illustrating that ICL is not robust to such distribution shifts. However, using this framework, we also prove an interesting property of ICL: when trained on task vectors drawn from a union of low-dimensional subspaces, ICL can generalize to any subspace within their span, given sufficiently long prompt lengths. This suggests that the OOD generalization ability of Transformers may actually stem from the new task lying within the span of those encountered during training. We empirically show that our results also hold for models such as GPT-2, and conclude with (i) experiments on how our observations extend to nonlinear function classes and (ii) results on how LoRA has the ability to capture distribution shifts.
- Abstract(参考訳): 本研究の目的は,低階共分散行列でパラメータ化された線形回帰タスクを学習することで,文脈内学習(ICL)のアウト・オブ・ディストリビューション(OOD)能力をデミステレーションすることである。
このようなパラメータ化により、トレーニングのサブスペースとテストの共分散行列の間の角度の変化として分布シフトをモデル化できる。
単層線形アテンションモデルが角度に依存しないテストリスクを生じさせることを証明し、ICLがそのような分布シフトに対して堅牢でないことを示す。
しかし、このフレームワークを用いると、ICLの興味深い性質も証明できる:低次元部分空間の和から引き出されたタスクベクトルで訓練すると、ICLはスパン内の任意の部分空間に一般化でき、十分に長いプロンプト長が与えられる。
このことは、トランスフォーマーのOOD一般化能力は、トレーニング中に遭遇したタスクの範囲内にある新しいタスクに由来する可能性があることを示唆している。
実験により, GPT-2 などのモデルにも有意な結果が得られ, 結論が得られた。
i) 非線形関数クラスへの我々の観測の展開と実験
(II)LoRAが分散シフトをキャプチャする能力を持っているかの結果。
関連論文リスト
- Bilinear Convolution Decomposition for Causal RL Interpretability [0.0]
強化学習(RL)モデルを解釈する試みは、しばしば帰属や探究のような高度な技術に依存している。
本研究では、畳み込みニューラルネットワーク(ConvNets)の非線形性を双線型変種に置き換え、これらの制限に対処可能なモデルのクラスを作成することを提案する。
モデルフリー強化学習環境では,バイリニアモデルの変形が相容れないことを示し,ProcGen環境上での並べ比較を行う。
論文 参考訳(メタデータ) (2024-12-01T19:32:04Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - Score-based Causal Representation Learning with Interventions [54.735484409244386]
本稿では,潜在因果変数を間接的に観察する際の因果表現学習問題について検討する。
目的は、 (i) 未知の線形変換(スケーリングまで)を回復し、 (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定することである。
論文 参考訳(メタデータ) (2023-01-19T18:39:48Z) - Implicit variance regularization in non-contrastive SSL [7.573586022424398]
閉形式線形予測ネットワークの固有空間におけるユークリッドおよびコサイン類似性とともに学習力学を解析的に研究する。
固有モデム間の収束速度を等化させる等方的損失関数の族 (IsoLoss) を提案する。
論文 参考訳(メタデータ) (2022-12-09T13:56:42Z) - Stochastic Mirror Descent in Average Ensemble Models [38.38572705720122]
ミラー降下 (SMD) はトレーニングアルゴリズムの一般的なクラスであり、特別な場合として、祝い勾配降下 (SGD) を含む。
本稿では,平均場アンサンブルモデルにおけるミラーポテンシャルアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2022-10-27T11:04:00Z) - Function Classes for Identifiable Nonlinear Independent Component
Analysis [10.828616610785524]
潜在変数モデル(LVM)の教師なし学習は機械学習のデータ表現に広く用いられている。
最近の研究は、そのようなモデルの関数クラスを制約することは、識別可能性を促進することを示唆している。
これらの変換のサブクラスである共形写像が同定可能であることを証明し、新しい理論的結果を与える。
論文 参考訳(メタデータ) (2022-08-12T17:58:31Z) - Meta Learning MDPs with Linear Transition Models [22.508479528847634]
マルコフ決定過程 (MDP) におけるメタラーニングについて, 線形遷移モデルを用いて検討した。
本稿では,UC-Matrix RLアルゴリズムのバージョンであるBUC-MatrixRLを提案する。
BUC-Matrix RLは,タスクを個別に学習するのに比べて,高バイアス低分散タスク分布に対する伝達後悔の大幅な改善を提供する。
論文 参考訳(メタデータ) (2022-01-21T14:57:03Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs [53.710405006523274]
この研究は、表現学習の問題に焦点を当てている。
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
論文 参考訳(メタデータ) (2020-06-18T19:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。