論文の概要: Provable Benefits of Task-Specific Prompts for In-context Learning
- arxiv url: http://arxiv.org/abs/2503.02102v2
- Date: Wed, 05 Mar 2025 16:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 12:09:37.125328
- Title: Provable Benefits of Task-Specific Prompts for In-context Learning
- Title(参考訳): 文脈内学習におけるタスク特化プロンプトの確率的メリット
- Authors: Xiangyu Chang, Yingcong Li, Muti Kara, Samet Oymak, Amit K. Roy-Chowdhury,
- Abstract要約: 本研究では,グローバルなタスク分布を条件付きタスク分布の結合に分割できる新しい設定について考察する。
次に,タスク固有のプロンプトと予測ヘッドを用いて,一層アテンションモデルを用いて条件付きタスク分布に関連する事前情報を学習する。
- 参考スコア(独自算出の注目度): 44.768199865867494
- License:
- Abstract: The in-context learning capabilities of modern language models have motivated a deeper mathematical understanding of sequence models. A line of recent work has shown that linear attention models can emulate projected gradient descent iterations to implicitly learn the task vector from the data provided in the context window. In this work, we consider a novel setting where the global task distribution can be partitioned into a union of conditional task distributions. We then examine the use of task-specific prompts and prediction heads for learning the prior information associated with the conditional task distribution using a one-layer attention model. Our results on loss landscape show that task-specific prompts facilitate a covariance-mean decoupling where prompt-tuning explains the conditional mean of the distribution whereas the variance is learned/explained through in-context learning. Incorporating task-specific head further aids this process by entirely decoupling estimation of mean and variance components. This covariance-mean perspective similarly explains how jointly training prompt and attention weights can provably help over fine-tuning after pretraining.
- Abstract(参考訳): 現代言語モデルの文脈内学習能力は、シーケンスモデルのより深い数学的理解を動機付けている。
最近の研究で、線形アテンションモデルが投影された勾配降下反復をエミュレートし、コンテキストウィンドウで提供されるデータからタスクベクトルを暗黙的に学習できることが示されている。
本研究では,グローバルなタスク分布を条件付きタスク分布の結合に分割できる新しい設定について考察する。
次に,タスク固有のプロンプトと予測ヘッドを用いて,一層アテンションモデルを用いて条件付きタスク分布に関連する事前情報を学習する。
ロスランドスケープにおける結果から,タスク固有のプロンプトは,コンテクスト内学習によって分散が学習/説明されるのに対して,プロンプトチューニングによって分布の条件平均が説明されるような,共分散平均デカップリングを促進することが示された。
タスク固有のヘッドを組み込むことは、平均成分と分散成分を完全に分離することによって、このプロセスをさらに助ける。
この共分散-平均的な視点は、共同トレーニングのプロンプトと注意重みが事前訓練後の微調整に有効であることを示す。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - In-context Learning in Presence of Spurious Correlations [8.055478206164105]
本研究では,突発的特徴を含む分類課題に対して,文脈内学習者を訓練する可能性について検討する。
従来の文脈内学習者の訓練手法は、刺激的な特徴に影響を受けやすいことが判明した。
与えられた分類タスクに対して,そのような学習者を訓練するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:26:36Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - OCEAN: Online Task Inference for Compositional Tasks with Context
Adaptation [150.1979017130774]
構成タスクに対するオンラインタスク推論を行うための変分推論フレームワークを提案する。
本フレームワークは,タスク構造に関する事前の知識に基づいて,柔軟な潜伏分布をサポートし,教師なしで訓練することができる。
論文 参考訳(メタデータ) (2020-08-17T04:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。