論文の概要: Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control
- arxiv url: http://arxiv.org/abs/2412.18582v1
- Date: Tue, 24 Dec 2024 18:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:28.347444
- Title: Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control
- Title(参考訳): 説明可能性の向上と制御のためのプロンプトチューニングにおける埋め込み先探索
- Authors: Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal Kadamba,
- Abstract要約: 本稿では,Prompt-Tuningでよく見られる埋没崩壊現象が,モデルの最終性能に与える影響について検討する。
以上の結果から, 先行は調整した埋め込みの位置に強く影響し, モデルが活性化空間の異なる部分からの埋め込みを効果的に扱えることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Prompt-Tuning is an efficient method for adapting pre-trained language models to new tasks with minimal computational overhead by modifying prompt embeddings. In this work, we investigate how crucial the phenomenon of embedding collapse, frequently observed in Prompt-Tuning, is for the final performance of the model. To address this question, we designed embedding priors and compared them with posteriors of the converged Soft and Deep Prompt-Tuning methods. Our findings suggest that priors strongly affect the position of the tuned embeddings, and models can effectively work with embeddings from different parts of activation spaces, including completely new regions. As the final Prompt-Tuning capabilities are limited, we hypothesize that controllable Prompt-Tuning posteriors may serve as a good starting point for tasks such as chain-of-thought (COT) distillation. Our experiments also show that generated trajectories are not localized in the activation space of the models. However, there are distinct clusters of activations for distant tasks (e.g., NLP and arithmetic), while activations between NLP tasks (e.g., Question-Answering and MLM) lie in the same cluster. These observations raise questions about the importance of a single activation cluster for the generalization abilities of large language models.
- Abstract(参考訳): Prompt-Tuningは、事前訓練された言語モデルを、迅速な埋め込みを変更することで、最小限の計算オーバーヘッドで新しいタスクに適応する効率的な方法である。
本稿では,Prompt-Tuningでよく見られる埋没崩壊現象が,モデルの最終性能に与える影響について検討する。
この問題に対処するため、我々は埋め込み先行を設計し、それらを収束したSoftとDeep Prompt-Tuning法の後部と比較した。
以上の結果から,前兆は調整した埋め込みの位置に強く影響し,モデルが完全に新しい領域を含む活性化空間の異なる部分からの埋め込みを効果的に扱うことが示唆された。
最終 Prompt-Tuning 能力は限られているため、制御可能な Prompt-Tuning 後部は、チェイン・オブ・シント (COT) 蒸留のようなタスクの出発点となる可能性があると仮定する。
実験の結果,生成した軌道はモデルの活性化空間に局在していないことがわかった。
しかしながら、異なるタスク(例えば、NLPと算術)に対するアクティベーションのクラスタが存在し、NLPタスク間のアクティベーション(例えば、QA-AnsweringとMLM)は同じクラスタにある。
これらの観察は、大きな言語モデルの一般化能力に対する単一のアクティベーションクラスタの重要性に関する疑問を提起する。
関連論文リスト
- Probe-Free Low-Rank Activation Intervention [26.502232859901167]
隠れたアクティベーションを編集する推論時間の介入は、望ましい世代に向けてLMを操る有望な結果を示している。
本稿では,特定のアクティベーション層内のすべての注意点に対するプローブフリー干渉法FLORAINを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:03:05Z) - Sparse Orthogonal Parameters Tuning for Continual Learning [34.462967722928724]
事前学習モデル(PTM)に基づく連続学習手法が近年注目されている。
本稿では,SoTU(Sparse Orthogonal Parameters TUning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-05T05:19:09Z) - Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models [93.5327725085853]
連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。
実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-04T19:55:32Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z) - Active Finetuning: Exploiting Annotation Budget in the
Pretraining-Finetuning Paradigm [132.9949120482274]
本稿では,事前学習ファインタニングパラダイムにおけるアノテーションのためのサンプルの選択に焦点を当てる。
本研究では,アクティブな微調整タスクのためのActiveFTと呼ばれる新しい手法を提案する。
画像分類とセマンティックセグメンテーションの両方に基づくベースラインよりも優れたActiveFTの先行性能と高効率性を示す。
論文 参考訳(メタデータ) (2023-03-25T07:17:03Z) - Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。
我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文 参考訳(メタデータ) (2022-11-04T02:06:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。