論文の概要: Task Vectors in In-Context Learning: Emergence, Formation, and Benefit
- arxiv url: http://arxiv.org/abs/2501.09240v1
- Date: Thu, 16 Jan 2025 01:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:09:48.314349
- Title: Task Vectors in In-Context Learning: Emergence, Formation, and Benefit
- Title(参考訳): インコンテキスト学習におけるタスクベクトル:創発、形成、ベネフィット
- Authors: Liu Yang, Ziqian Lin, Kangwook Lee, Dimitris Papailiopoulos, Robert Nowak,
- Abstract要約: 合成データセットをスクラッチから学習したモデルを用いて, 制御された環境下でのタスクベクトルの生成について検討した。
その結果,特定の条件下ではタスクベクトルが自然に現れることが確認できたが,タスクは比較的弱く,あるいは非局所的にモデル内にコード化されている可能性がある。
モデル内の所定位置に符号化された強いタスクベクトルを促進するために,損失を促すタスクベクトルに基づく補助的なトレーニング機構を提案する。
- 参考スコア(独自算出の注目度): 17.72043522825441
- License:
- Abstract: In-context learning is a remarkable capability of transformers, referring to their ability to adapt to specific tasks based on a short history or context. Previous research has found that task-specific information is locally encoded within models, though their emergence and functionality remain unclear due to opaque pre-training processes. In this work, we investigate the formation of task vectors in a controlled setting, using models trained from scratch on synthetic datasets. Our findings confirm that task vectors naturally emerge under certain conditions, but the tasks may be relatively weakly and/or non-locally encoded within the model. To promote strong task vectors encoded at a prescribed location within the model, we propose an auxiliary training mechanism based on a task vector prompting loss (TVP-loss). This method eliminates the need to search for task-correlated encodings within the trained model and demonstrably improves robustness and generalization.
- Abstract(参考訳): 文脈内学習はトランスフォーマーの顕著な能力であり、短い履歴や文脈に基づいて特定のタスクに適応する能力に言及している。
従来の研究では、タスク固有の情報はモデル内に局所的にエンコードされているが、不透明な事前学習プロセスのため、その出現と機能はまだ不明である。
本研究では,合成データセットをスクラッチから学習したモデルを用いて,制御された環境下でのタスクベクトルの生成について検討する。
その結果,特定の条件下ではタスクベクトルが自然に現れることが確認できたが,タスクは比較的弱く,あるいは非局所的にモデル内にコード化されている可能性がある。
モデル内の所定位置に符号化された強いタスクベクトルを促進するために,タスクベクトルの損失促進(TVP-loss)に基づく補助的なトレーニング機構を提案する。
この方法では、トレーニングされたモデル内でタスク関連エンコーディングを検索する必要がなくなり、ロバスト性や一般化が明らかに向上する。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - In-context Learning in Presence of Spurious Correlations [8.055478206164105]
本研究では,突発的特徴を含む分類課題に対して,文脈内学習者を訓練する可能性について検討する。
従来の文脈内学習者の訓練手法は、刺激的な特徴に影響を受けやすいことが判明した。
与えられた分類タスクに対して,そのような学習者を訓練するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:26:36Z) - Robust Fast Adaptation from Adversarially Explicit Task Distribution Generation [45.568230152488276]
タスク識別子上に配置されたタスク分布を明示的に生成する。
我々は、敵の訓練から高速適応を強固にすることを提案する。
この研究は、特にメタラーニングにおけるタスク分散シフトを扱う際に、実践的な意味を持っている。
論文 参考訳(メタデータ) (2024-07-28T16:23:55Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Finding Visual Task Vectors [74.67336516908776]
ビジュアルプロンプティング(Visual Prompting)は、モデルに、追加のトレーニングなしで、コンテキスト内の例を通して視覚的なタスクを実行するように教えるテクニックである。
我々は,最新のVisual PromptingモデルであるMAE-VQGANのアクティベーションを分析し,タスク固有情報をエンコードするタスクベクトル,アクティベーションを求める。
論文 参考訳(メタデータ) (2024-04-08T17:59:46Z) - Learning How to Infer Partial MDPs for In-Context Adaptation and
Exploration [17.27164535440641]
後方サンプリングは有望なアプローチであるが、ベイズ推論と動的プログラミングが必要である。
部分モデルが環境から関連する情報を除外したとしても、良い政策につながることは明らかである。
論文 参考訳(メタデータ) (2023-02-08T18:35:24Z) - Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-08T05:50:53Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。