論文の概要: Enhancing Cross-task Transfer of Large Language Models via Activation Steering
- arxiv url: http://arxiv.org/abs/2507.13236v1
- Date: Thu, 17 Jul 2025 15:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.561936
- Title: Enhancing Cross-task Transfer of Large Language Models via Activation Steering
- Title(参考訳): アクティベーションステアリングによる大規模言語モデルのクロスタスク移動促進
- Authors: Xinyu Tang, Zhihao Lv, Xiaoxue Cheng, Junyi Li, Wayne Xin Zhao, Zujie Wen, Zhiqiang Zhang, Jun Zhou,
- Abstract要約: クロスタスク・イン・コンテキスト学習はタスク間で知識を伝達する直接的なソリューションを提供する。
パラメータ更新や入力拡張を伴わずに、潜時空間ステアリングによりクロスタスク転送を実現することができるかを検討する。
本稿では,モデルの内部アクティベーション状態を操作することで,効率的な転送を可能にするクロスタスク・アクティベーション・ステアリング・トランスファー・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 75.41750053623298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown impressive abilities in leveraging pretrained knowledge through prompting, but they often struggle with unseen tasks, particularly in data-scarce scenarios. While cross-task in-context learning offers a direct solution for transferring knowledge across tasks, it still faces critical challenges in terms of robustness, scalability, and efficiency. In this paper, we investigate whether cross-task transfer can be achieved via latent space steering without parameter updates or input expansion. Through an analysis of activation patterns in the latent space of LLMs, we observe that the enhanced activations induced by in-context examples have consistent patterns across different tasks. Inspired by these findings, we propose CAST, a novel Cross-task Activation Steering Transfer framework that enables effective transfer by manipulating the model's internal activation states. Our approach first selects influential and diverse samples from high-resource tasks, then utilizes their contrastive representation-enhanced activations to adapt LLMs to low-resource tasks. Extensive experiments across both cross-domain and cross-lingual transfer settings show that our method outperforms competitive baselines and demonstrates superior scalability and lower computational costs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、事前訓練された知識をプロンプトを通じて活用する際、印象的な能力を示してきたが、特にデータスキャンのシナリオにおいて、しばしば目に見えないタスクに悩まされる。
タスク間で知識を伝達するための、クロスタスクなインコンテキスト学習は直接的なソリューションを提供するが、堅牢性、スケーラビリティ、効率性の面では、依然として重要な課題に直面している。
本稿では,パラメータ更新や入力拡張を伴わずに,潜時空間ステアリングによりクロスタスク転送を実現するかを検討する。
LLMの潜在空間におけるアクティベーションパターンの解析を通じて、インコンテキストの例によって引き起こされるアクティベーションの増大が、異なるタスクにまたがって一貫したパターンを持つことを観察する。
これらの知見に触発されて、モデルの内部アクティベーション状態を操作することで、効果的な転送を可能にするクロスタスク・アクティベーション・ステアリング・トランスファー・フレームワークであるCASTを提案する。
提案手法はまず,高リソースタスクから重要かつ多種多様なサンプルを選択し,低リソースタスクにLLMを適用するために,その対照的な表現強化アクティベーションを利用する。
クロスドメイン・クロスランガル・トランスファー・セッティングの両方にわたる広範囲な実験により,本手法は競争ベースラインを上回り,スケーラビリティと計算コストの低減を図っている。
関連論文リスト
- FAST: Similarity-based Knowledge Transfer for Efficient Policy Learning [57.4737157531239]
Transfer Learningは、タスク間で知識を伝達することで学習を加速する能力を提供する。
これは、負の転送、ドメイン適応、ソリッドソースポリシーの選択における非効率といった重要な課題に直面します。
本研究では,知識伝達の改善,タスク間のパフォーマンスの促進,計算コストの削減など,TLの課題に挑戦する。
論文 参考訳(メタデータ) (2025-07-27T22:21:53Z) - Large Language Model as Meta-Surrogate for Data-Driven Many-Task Optimization: A Proof-of-Principle Study [11.452011929848844]
本研究では,マルチタスク最適化を支援するメタサロゲートフレームワークを提案する。
問題群に適合するメタデータを持つ普遍モデルを定義することにより、多タスクフィットネス予測のための統一的なフレームワークを定式化する。
我々のフレームワークは、双対レベルの知識伝達 -- 代理レベルと個別レベルの両方 -- をサポートし、最適化の効率性と堅牢性を高めます。
論文 参考訳(メタデータ) (2025-03-11T11:13:11Z) - Exploiting Task Relationships for Continual Learning Using Transferability-Aware Task Embeddings [8.814732457885022]
連続学習(CL)は、現代のディープニューラルネットワークアプリケーションにおいて重要なトピックである。
本稿では、H埋め込みと呼ばれるトランスファービリティを考慮したタスク埋め込みを提案し、そのガイダンスに基づいてハイパーネットフレームワークを構築する。
論文 参考訳(メタデータ) (2025-02-17T09:52:19Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Language Models can Exploit Cross-Task In-context Learning for Data-Scarce Novel Tasks [22.66167973623777]
LLM(Large Language Models)は、ICL(In-context Learning)機能によってNLPを変換した。
本稿では,予め定義されたタスクのラベル付き例から新しいタスクまで,LLMが一般化できるかどうかを検討する。
LLaMA-2 7Bは107%, LLaMA-2 13Bは18.6%, GPT3.5は3.2%であった。
論文 参考訳(メタデータ) (2024-05-17T05:20:49Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。
以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。
また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文 参考訳(メタデータ) (2020-05-02T09:39:36Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。