論文の概要: Adaptive Task Vectors for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.03426v1
- Date: Tue, 03 Jun 2025 22:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.070692
- Title: Adaptive Task Vectors for Large Language Models
- Title(参考訳): 大規模言語モデルに対する適応型タスクベクトル
- Authors: Joonseong Kang, Soojeong Lee, Subeen Park, Sumin Park, Taero Kim, Jihee Kim, Ryunyi Lee, Kyungwoo Song,
- Abstract要約: Adaptive Task Vectors (ATV) は、各入力クエリに条件付きタスクベクトルを動的に生成する、シンプルで効果的なフレームワークである。
ATVは、目に見えないタスクであっても、強力なパフォーマンスと一般化能力を示す。
- 参考スコア(独自算出の注目度): 14.108866468832623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-Context Learning (ICL) enables Large Language Models (LLMs) to perform tasks without parameter updates by conditioning on a few demonstrations provided in the prompt. Despite its success, ICL suffers from several limitations, including sensitivity to demonstration order, context length constraints, and computational inefficiency. To address these challenges, task vector-based approaches compress task information into a single vector. However, these methods typically construct task vectors from fixed sets of demonstrations and reuse them across input queries, without conditioning on the specific input. This limitation can lead models to struggle with effective adaptation when the input query is not well aligned with the underlying demonstrations, consequently degrading their generalization performance on unseen tasks. To overcome this limitation, we propose Adaptive Task Vectors (ATV), a simple and effective framework that dynamically generates task vectors conditioned on each input query. ATV employs a small language model to generate task vectors, which are then transformed to match the target LLM's architecture and applied to guide its output generation. In contrast to ICL and previous vector-based approaches, which rely on fixed demonstration sets and their corresponding vectors, ATV dynamically generates task vectors tailored to each specific input query and task. Consequently, ATV demonstrates strong performance and generalization capabilities, even for unseen tasks. Furthermore, we provide a theoretical analysis indicating that ATV is expressively equivalent to LoRA under equal rank budgets and more expressive than Prefix-Tuning, thereby offering formal support for its representational advantage.
- Abstract(参考訳): In-Context Learning (ICL)は、大規模言語モデル(LLM)がプロンプトで提供されるいくつかのデモを条件にすることで、パラメータ更新なしでタスクを実行することを可能にする。
その成功にもかかわらず、ICLはデモの順序に対する感度、コンテキスト長の制約、計算の非効率など、いくつかの制限に悩まされている。
これらの課題に対処するため、タスクベクトルベースのアプローチはタスク情報を1つのベクトルに圧縮する。
しかし、これらのメソッドは通常、特定の入力を条件にすることなく、固定されたデモセットからタスクベクトルを構築し、入力クエリ間で再利用する。
この制限により、入力クエリが基礎となるデモとうまく一致していない場合、モデルが効果的な適応に苦労する可能性がある。
この制限を克服するために,各入力クエリに条件付きタスクベクトルを動的に生成する,シンプルで効果的なフレームワークであるAdaptive Task Vectors (ATV)を提案する。
ATVは、タスクベクトルを生成するために小さな言語モデルを使用し、ターゲットのLLMアーキテクチャに適合するように変換され、出力生成をガイドするために適用される。
ICLやそれ以前のベクトルベースのアプローチとは対照的に、ATVは特定の入力クエリやタスクに適したタスクベクトルを動的に生成する。
その結果、ATVは、目に見えないタスクであっても、強力なパフォーマンスと一般化能力を示す。
さらに,ATV が同じランクの予算の下では LoRA と表現的に等価であり,Prefix-Tuning よりも表現力が高いことを示す理論的解析を行い,その表現的優位性に対する公式なサポートを提供する。
関連論文リスト
- Beyond Demonstrations: Dynamic Vector Construction from Latent Representations [11.916165865594365]
In-Context derived Vector (ICV)メソッドは、大きな言語モデル(LLM)からタスク関連表現を抽出し、推論中に再注入する。
DyVecは、推論時タスク適応のための軽量でデータ効率のソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-23T12:13:50Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - Vision-Language Models Create Cross-Modal Task Representations [58.19152818504624]
視覚言語モデル(VLM)は,概念的に等価な入力を共有タスクベクトルに整合させることができる。
このアライメントを,タスクやモデルアーキテクチャのクロスモーダル転送を通じて測定する。
タスクベクトルはベース言語モデルから微調整された視覚言語モデルに変換可能であることを示す。
論文 参考訳(メタデータ) (2024-10-29T17:59:45Z) - Distributed Rule Vectors is A Key Mechanism in Large Language Models' In-Context Learning [3.1775609005777024]
大規模言語モデル(LLM)は目覚ましい能力を示しており、最も重要なものはインコンテキスト学習(ICL)である。
以前の研究は、ICL中に特定の位置でネットワークが「タスクベクトル」を生成すると仮定していた。
このような「タスクベクトル」は、ルールを複数の実演を通して定義しなければならないタスクには存在しないことが判明した。
論文 参考訳(メタデータ) (2024-06-23T04:29:13Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。