論文の概要: One Task Vector is not Enough: A Large-Scale Study for In-Context Learning
- arxiv url: http://arxiv.org/abs/2505.23911v1
- Date: Thu, 29 May 2025 18:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.610498
- Title: One Task Vector is not Enough: A Large-Scale Study for In-Context Learning
- Title(参考訳): 1つのタスクベクトルが十分ではない:インコンテキスト学習のための大規模研究
- Authors: Pavel Tikhonov, Ivan Oseledets, Elena Tutubalina,
- Abstract要約: In-context Learning (ICL)により、大規模言語モデルでは、タスク情報をエンコードするように仮定されたタスクベクトルを使って、いくつかの例を使って新しいタスクに適応することができる。
我々は,Alpacaデータセットから抽出した30の入出力ペアを持つ,3,096の多種多様なショットタスクからなる新しいデータセットQuiteAFewを紹介した。
Llama-3-8B による QuiteAFew の実験では,(1) 中間層(例えば 15 位)におけるタスクベクトルのパフォーマンスピーク,(2) タスクタイプによる有効性,(3) 複雑なタスクは単一のベクトルではなく,複数のサブタスク固有のベクトルに依存しており,分散タスク知識を示唆している。
- 参考スコア(独自算出の注目度): 8.814773743724315
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In-context learning (ICL) enables Large Language Models (LLMs) to adapt to new tasks using few examples, with task vectors - specific hidden state activations - hypothesized to encode task information. Existing studies are limited by small-scale benchmarks, restricting comprehensive analysis. We introduce QuiteAFew, a novel dataset of 3,096 diverse few-shot tasks, each with 30 input-output pairs derived from the Alpaca dataset. Experiments with Llama-3-8B on QuiteAFew reveal: (1) task vector performance peaks at an intermediate layer (e.g., 15th), (2) effectiveness varies significantly by task type, and (3) complex tasks rely on multiple, subtask-specific vectors rather than a single vector, suggesting distributed task knowledge representation.
- Abstract(参考訳): In-context Learning (ICL)により、大規模言語モデル(LLM)は、タスクベクタ – 特定の隠れ状態アクティベーション – を使用して、タスク情報をエンコードするように仮定された新しいタスクに適応することができる。
既存の研究は小規模なベンチマークによって制限されており、包括的な分析が制限されている。
我々は,Alpacaデータセットから抽出した30の入出力ペアを持つ,3,096の多種多様なショットタスクからなる新しいデータセットQuiteAFewを紹介した。
1)中間層(例えば15位)でのタスクベクトル性能のピークはタスクタイプによって大きく異なり、(3)複雑なタスクは単一のベクトルではなく、複数のサブタスク固有のベクトルに依存しており、分散タスク知識の表現が提案されている。
関連論文リスト
- Layer-Aware Task Arithmetic: Disentangling Task-Specific and Instruction-Following Knowledge [12.367471198090655]
Task Arithmetic (TA)は、微調整から派生したタスクベクトルを組み合わせることで、マルチタスク学習とタスク忘れを可能にするが、一般的な指示追従行動からタスク固有の知識を分離するのに苦労する。
本稿では,命令フォローやタスク固有のコンポーネントとのアライメントに基づいて,階層固有の重みをタスクベクトルに割り当てる新しい手法であるLayer-Aware Task Arithmetic (LATA)を提案する。
論文 参考訳(メタデータ) (2025-02-27T15:22:14Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Object-Centric Multi-Task Learning for Human Instances [8.035105819936808]
オブジェクト中心学習によって複数のタスクのパラメータを最大に共有する,コンパクトなマルチタスクネットワークアーキテクチャについて検討する。
我々は、人中心クエリ(HCQ)と呼ばれる、人間のインスタンス情報を効果的に符号化する新しいクエリ設計を提案する。
実験結果から,提案したマルチタスクネットワークは,最先端タスク固有モデルに匹敵する精度を実現することがわかった。
論文 参考訳(メタデータ) (2023-03-13T01:10:50Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。
以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。
また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文 参考訳(メタデータ) (2020-05-02T09:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。