論文の概要: DeCoVec: Building Decoding Space based Task Vector for Large Language Models via In-Context Learning
- arxiv url: http://arxiv.org/abs/2604.11129v1
- Date: Mon, 13 Apr 2026 07:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.405103
- Title: DeCoVec: Building Decoding Space based Task Vector for Large Language Models via In-Context Learning
- Title(参考訳): DeCoVec: インコンテキスト学習による大規模言語モデルのためのデコードスペースベースのタスクベクトルの構築
- Authors: Feiyang Li, Yile Wang,
- Abstract要約: textscDeCoVecは、少数ショットプロンプトとゼロショットプロンプトの出力ロジット分布の違いとしてタスクの本質をキャプチャする。
textscDeCoVecは標準のショットベースラインを一貫して上回り、平均精度は+5.50まで向上する。
- 参考スコア(独自算出の注目度): 6.461940812531588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task vectors, representing directions in model or activation spaces that encode task-specific behaviors, have emerged as a promising tool for steering large language models (LLMs). However, existing approaches typically require fine-tuning or invasive manipulation of internal states, limiting their flexibility and scalability. We propose \textsc{DeCoVec} (Decoding Space based Task Vector), a training-free and non-invasive framework that constructs task vectors directly in the \textit{decoding space} by leveraging in-context learning (ICL). Specifically, \textsc{DeCoVec} captures the task essence as the difference between the output logit distributions of few-shot and zero-shot prompts, then steers generation by injecting this vector into the decoding process. Experiments across seven LLMs (0.5B--9B) on TruthfulQA, Math-500, and AQUA-RAT show that \textsc{DeCoVec} consistently outperforms standard few-shot baselines, with gains up to +5.50 average accuracy. Further analysis demonstrates that \textsc{DeCoVec} effectively suppresses generation degeneration and logical flaws while exhibiting strong robustness to demonstration ordering, all without incurring additional input token costs. Our method offers a training-free and non-invasive solution for LLM steering without requiring weight updates or auxiliary models.
- Abstract(参考訳): タスクベクトルは、タスク固有の振る舞いを符号化するモデルやアクティベーション空間の方向を表すもので、大きな言語モデル(LLM)を操るための有望なツールとして登場した。
しかし、既存のアプローチでは、内部状態を微調整または侵入的に操作する必要があるため、柔軟性とスケーラビリティが制限される。
In-context Learning (ICL) を活用して,タスクベクトルを直接 \textit{decoding space} 内に構築する,トレーニング不要で非侵襲的なフレームワークである \textsc{DeCoVec} (Decoding Space based Task Vector) を提案する。
具体的には、textsc{DeCoVec} は、少数ショットプロンプトとゼロショットプロンプトの出力ロジット分布の違いとしてタスクの本質をキャプチャし、このベクトルをデコードプロセスに注入することで、ステアリングを生成する。
TruthfulQA、Math-500、Aqua-RATの7つのLLM(0.5B--9B)での実験では、標準的な数発のベースラインより常に優れており、平均精度は+5.50である。
さらなる分析により、 \textsc{DeCoVec} は生成の退化と論理的欠陥を効果的に抑制し、さらに追加の入力トークンコストを発生させることなく、証明順序付けに強い堅牢性を示すことを示した。
本手法は,軽量化や補助モデルを必要としないLCMステアリングのためのトレーニングフリーで非侵襲的なソリューションを提供する。
関連論文リスト
- SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents [32.69890220986935]
我々は,コーディングエージェントのための自己適応型コンテキストプルーニングフレームワークであるSWE-Prunerを提案する。
SWE-Prunerは、長いコンテキストに対してタスク対応の適応型プルーニングを実行する。
SWE-Bench Verifiedのようなエージェントタスクで23~54%のトークン削減を実現し、LongCodeQAのようなシングルターンタスクで最大14.84倍の圧縮を実現している。
論文 参考訳(メタデータ) (2026-01-23T13:51:59Z) - Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding [71.01099784480597]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、様々なタスクで優れる
In-Context Contrastive Decoding (ICCD)を導入する。
論文 参考訳(メタデータ) (2025-02-19T14:04:46Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Adapting Language Models to Compress Contexts [71.98287002918941]
トランスフォーマーベースの言語モデル(LM)は強力で広く適用可能なツールであるが、その有用性は有限コンテキストウィンドウによって制限される。
本稿では,事前学習したLMを,長いコンテキストをコンパクトな要約ベクトルに圧縮可能なAutoCompressorに適応させることを提案する。
最大30,720個のトークンのシーケンスでOPTとLlama-2モデルを微調整し、AutoCompressorが長いコンテキストを使ってパープレキシティを向上できることを示す。
論文 参考訳(メタデータ) (2023-05-24T06:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。