Fugu-MT 論文翻訳(概要): Soft Injection of Task Embeddings Outperforms Prompt-Based In-Context Learning

論文の概要: Soft Injection of Task Embeddings Outperforms Prompt-Based In-Context Learning

arxiv url: http://arxiv.org/abs/2507.20906v2
Date: Tue, 29 Jul 2025 02:15:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 12:52:36.858394
Title: Soft Injection of Task Embeddings Outperforms Prompt-Based In-Context Learning
Title（参考訳）: プロンプトに基づくインコンテキスト学習におけるタスク埋め込みのソフトインジェクション
Authors: Jungwon Park, Wonjong Rhee,
Abstract要約: In-Context Learning (ICL)は、インプット内の入出力例を条件にすることで、大規模言語モデルがタスクを実行することを可能にする。本研究では,タスク埋め込みのソフトインジェクションを提案する。ソフトインジェクションは、タスク埋め込みとアテンションヘッドアクティベーションとをソフトに混合して行う。
参考スコア（独自算出の注目度）: 5.778024594615575
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In-Context Learning (ICL) enables Large Language Models (LLMs) to perform tasks by conditioning on input-output examples in the prompt, without requiring any update in model parameters. While widely adopted, it remains unclear whether prompting with multiple examples is the most effective and efficient way to convey task information. In this work, we propose Soft Injection of task embeddings. The task embeddings are constructed only once using few-shot ICL prompts and repeatedly used during inference. Soft injection is performed by softly mixing task embeddings with attention head activations using pre-optimized mixing parameters, referred to as soft head-selection parameters. This method not only allows a desired task to be performed without in-prompt demonstrations but also significantly outperforms existing ICL approaches while reducing memory usage and compute cost at inference time. An extensive evaluation is performed across 57 tasks and 12 LLMs, spanning four model families of sizes from 4B to 70B. Averaged across 57 tasks, our method outperforms 10-shot ICL by 10.2%-14.3% across 12 LLMs. Additional analyses show that our method also serves as an insightful tool for analyzing task-relevant roles of attention heads, revealing that task-relevant head positions selected by our method transfer across similar tasks but not across dissimilar ones -- underscoring the task-specific nature of head functionality. Our soft injection method opens a new paradigm for reducing prompt length and improving task performance by shifting task conditioning from the prompt space to the activation space.
Abstract（参考訳）: In-Context Learning (ICL)により、大規模言語モデル(LLM)は、モデルパラメータの更新を必要とせずに、インプット・アウトプットの例をプロンプトで条件付けすることでタスクを実行することができる。広く採用されているが、複数の事例を提示することがタスク情報を伝達する最も効果的かつ効率的な方法であるかどうかは不明だ。本研究では,タスク埋め込みのソフトインジェクションを提案する。タスクの埋め込みは、数発のICLプロンプトを使用して1回だけ構築され、推論中に繰り返し使用される。ソフトインジェクションは、ソフトヘッド選択パラメータと呼ばれる予め最適化されたミキシングパラメータを用いて、タスク埋め込みとアテンションヘッドアクティベーションをソフトに混合することにより行われる。この方法では、実演なしで所望のタスクを実行できるだけでなく、既存のICLアプローチよりも大幅に優れ、メモリ使用率と推論時の計算コストを低減できる。 57のタスクと12のLLMにまたがって大規模な評価が行われ、4Bから70Bまでの4つのモデルファミリーにまたがる。 57のタスクに平均して、我々の手法は12のLLMで10ショットICLを10.2%-14.3%上回っている。追加分析の結果,本手法はアテンションヘッドのタスク関連役割を解析するための洞察に富んだツールとして機能し,本手法で選択したタスク関連ヘッド位置が類似のタスクにまたがるのではなく,異種機能にまたがるタスク関連ヘッド位置であることが明らかとなった。我々のソフトインジェクション法は,タスク条件をプロンプト空間からアクティベーション空間にシフトさせることにより,プロンプト長の低減とタスク性能の向上のための新しいパラダイムを開放する。

関連論文リスト

Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Extracting Interpretable Task-Specific Circuits from Large Language Models for Faster Inference [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。対象タスクを適切に実行するLLMのサブセットを自動的に抽出する新しい手法を提案する。得られたモデルはかなり小さく、パラメータの数を82.77%まで減らし、(ii)より解釈可能であることを示す。
論文参考訳（メタデータ） (2024-12-20T10:11:44Z)
EXPLORA: Efficient Exemplar Subset Selection for Complex Reasoning [5.172620636569522]
大規模言語モデル (LLMs) は文脈内学習 (ICL) を可能にしており、LLMはいくつかの実演サンプル(例)を使って特定のタスクにおいて習熟度を取得できる。 ICLにおける重要な課題は、タスク特化(静的)またはテスト特化(動的)のいずれかが可能な最適例の選択である。
論文参考訳（メタデータ） (2024-11-06T12:48:04Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance [11.595274304409937]
大規模言語モデル(LLM)はゼロショットタスクのパフォーマンスに革命をもたらした。レッツ・シンク・バイ・ステップ(Let's Think by Step)」のようなトリガーフレーズを使った現在の手法は依然として限られている。本研究では,タスクインスタンスのゼロショットプロンプトを最適化するPRomPTedを導入する。
論文参考訳（メタデータ） (2023-10-03T14:51:34Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。 IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文参考訳（メタデータ） (2022-06-04T10:08:50Z)
Attentional Mixtures of Soft Prompt Tuning for Parameter-efficient Multi-task Knowledge Sharing [53.399742232323895]
ATTEMPTは、新しいモジュラー、マルチタスク、パラメータ効率の言語モデル(LM)チューニングアプローチである。異なるタスク間で伝達される知識をソフトプロンプトの混合によって組み合わせ、元のLMをそのまま維持する。パラメータ効率(例えば、微調整よりも1,600倍少ないパラメータを更新)であり、マルチタスク学習と柔軟な拡張を可能にする。
論文参考訳（メタデータ） (2022-05-24T10:48:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。