論文の概要: Reconciling In-Context and In-Weight Learning via Dual Representation Space Encoding
- arxiv url: http://arxiv.org/abs/2603.13459v1
- Date: Fri, 13 Mar 2026 16:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.226777
- Title: Reconciling In-Context and In-Weight Learning via Dual Representation Space Encoding
- Title(参考訳): デュアル表現空間符号化によるインコンテキストとインウェイト学習の再構成
- Authors: Guanyu Chen, Ruichen Wang, Tianren Zhang, Feng Chen,
- Abstract要約: In-context Learning (ICL) は、トランスフォーマーが様々なシーケンスタスクで事前訓練した貴重な機能である。
以前の研究では、ICLはモデル固有のin-weight learning(IWL)能力と矛盾することが多い。
コンテキストとサンプルを分離して2つの異なる空間にエンコードするために、モデルアーキテクチャを変更します。
- 参考スコア(独自算出の注目度): 8.257821995781297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) is a valuable capability exhibited by Transformers pretrained on diverse sequence tasks. However, previous studies have observed that ICL often conflicts with the model's inherent in-weight learning (IWL) ability. By examining the representation space learned by a toy model in synthetic experiments, we identify the shared encoding space for context and samples in Transformers as a potential source of this conflict. To address this, we modify the model architecture to separately encode the context and samples into two distinct spaces: a task representation space and a sample representation space. We model these two spaces under a simple yet principled framework, assuming a linear representational structure and treating them as a pair of dual spaces. Both theoretical analysis and empirical results demonstrate the effectiveness of our proposed architecture, CoQE, in the single-value answer setting. It not only enhances ICL performance through improved representation learning, but also successfully reconciles ICL and IWL capabilities across synthetic few-shot classification and a newly designed pseudo-arithmetic task. Code: https://github.com/McGuinnessChen/dual-representation-space-encoding
- Abstract(参考訳): In-context Learning (ICL) は、トランスフォーマーが様々なシーケンスタスクで事前訓練した貴重な機能である。
しかし、以前の研究では、ICLはモデル固有のin-weight learning(IWL)能力と矛盾することが多い。
合成実験において玩具モデルで学習した表現空間を調べることにより,トランスフォーマーにおけるコンテキストとサンプルの共有符号化空間を,この競合の潜在的な源泉として同定する。
これを解決するために、モデルアーキテクチャを変更し、コンテキストとサンプルを2つの異なる空間(タスク表現空間とサンプル表現空間)に別々にエンコードする。
この2つの空間は、線形表現構造を仮定し、双対空間の対として扱うという、単純だが原理化された枠組みの下でモデル化する。
理論的解析と実証結果の両方が,提案したアーキテクチャであるCoQEの有効性を,単一値の回答設定で示している。
表現学習の改善を通じてICLの性能を向上させるだけでなく、合成小ショット分類と新たに設計された擬似認識タスクによってICLとIWLの能力を再構築することに成功した。
コード:https://github.com/McGuinnessChen/dual-representation-space-encoding
関連論文リスト
- Emergence and Effectiveness of Task Vectors in In-Context Learning: An Encoder Decoder Perspective [18.077009146950473]
プレトレーニング中にトランスフォーマーがどのようにタスクベクトルを形成し、そのタスク符号化品質がICLタスク性能を予測するかを検討する。
私たちの経験的洞察は、その表現を通じて、大きな言語モデルの成功と失敗モードの理解を深めました。
論文 参考訳(メタデータ) (2024-12-16T19:00:18Z) - Implicit In-context Learning [37.0562059811099]
Inlicit In-context Learning (I2CL)は、ICLの推論コストを最小限の情報損失でゼロショット学習に還元する革新的なパラダイムである。
I2CLはゼロショット推論コストで数ショットレベルのパフォーマンスを実現し、実演例のバリエーションに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-05-23T14:57:52Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Towards Understanding How Transformers Learn In-context Through a Representation Learning Lens [9.590540796223715]
本稿では,表現学習のレンズを用いて,トランスフォーマーにおける文脈内学習プロセスについて検討する。
注目層のICL推論プロセスは、その2重モデルのトレーニング手順と整合し、トークン表現予測を生成する。
理論的結論は、1つのトランスフォーマー層と複数の注意層を含む、より複雑なシナリオにまで拡張します。
論文 参考訳(メタデータ) (2023-10-20T01:55:34Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。