論文の概要: On Zero-Initialized Attention: Optimal Prompt and Gating Factor Estimation
- arxiv url: http://arxiv.org/abs/2502.03029v1
- Date: Wed, 05 Feb 2025 09:31:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:27:00.816143
- Title: On Zero-Initialized Attention: Optimal Prompt and Gating Factor Estimation
- Title(参考訳): ゼロ初期化注意:最適プロンプトとゲーティング係数推定
- Authors: Nghiem T. Diep, Huy Nguyen, Chau Nguyen, Minh Le, Duy M. H. Nguyen, Daniel Sonntag, Mathias Niepert, Nhat Ho,
- Abstract要約: LLaMA-Adapterは、学習の安定化と性能向上のためにゼロ次元の注意を生かし、LLaMAモデルの効率的な微調整技術として登場した。
我々は厳密な理論解析を行い、ゼロ次元の注意とエキスパートの混合モデルとの接続を確立する。
我々は、線形および非線形のプロンプトとゲーティング関数が最適に推定できることを証明し、非線形プロンプトは将来のアプリケーションにより大きな柔軟性を提供する。
- 参考スコア(独自算出の注目度): 35.15036694891041
- License:
- Abstract: The LLaMA-Adapter has recently emerged as an efficient fine-tuning technique for LLaMA models, leveraging zero-initialized attention to stabilize training and enhance performance. However, despite its empirical success, the theoretical foundations of zero-initialized attention remain largely unexplored. In this paper, we provide a rigorous theoretical analysis, establishing a connection between zero-initialized attention and mixture-of-expert models. We prove that both linear and non-linear prompts, along with gating functions, can be optimally estimated, with non-linear prompts offering greater flexibility for future applications. Empirically, we validate our findings on the open LLM benchmarks, demonstrating that non-linear prompts outperform linear ones. Notably, even with limited training data, both prompt types consistently surpass vanilla attention, highlighting the robustness and adaptability of zero-initialized attention.
- Abstract(参考訳): LLaMA-Adapterは、最近LLaMAモデルの効率的な微調整技術として登場し、ゼロ初期化の注意を生かしてトレーニングの安定化と性能の向上を実現している。
しかし、その実証的な成功にもかかわらず、ゼロ初期化の理論的基礎はほとんど解明されていない。
本稿では,ゼロ初期化アテンションとエキスパートの混合モデルとの接続を確立するための厳密な理論解析を行う。
我々は、線形および非線形のプロンプトとゲーティング関数が最適に推定できることを証明し、非線形プロンプトは将来のアプリケーションにより大きな柔軟性を提供する。
実験により,開LLMベンチマークの結果を検証し,非線形が線形よりも優れていることを示す。
特に、訓練データに制限があるとしても、どちらのプロンプトタイプも常にバニラの注意を越え、ゼロ初期化の注意の堅牢性と適応性を強調している。
関連論文リスト
- Can LLMs predict the convergence of Stochastic Gradient Descent? [5.206475868803433]
大規模なランダム化モデルは、様々なタスクにまたがる優れたパフォーマンスで有名です。
このような驚くべきパフォーマンスの1つの驚くべき例は、マルコフシステムの原則を満たす、最近特定されたタスクである。
論文 参考訳(メタデータ) (2024-08-03T10:35:59Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models [44.38073745307387]
本研究では,大規模言語モデル(LLM)とオフラインの嗜好データとの整合性について検討する。
オフラインRL文献から平均的な悲観的手法にインスパイアされた,セルフプレイによる新たなオフライン優先最適化手法であるSPACを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:23:49Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Robust optimization for adversarial learning with finite sample complexity guarantees [1.8434042562191815]
本稿では,線形・非線形な分類問題に着目し,ロバストな分類器に対する新しい逆学習法を提案する。
データ駆動型レンズの下ではロバスト性があり、線形および非線形の分類器の2進および複数クラスシナリオにおける有限標本複雑性境界を導出する。
線形および非線形モデルに対する線形計画法 (LP) と2次コーン計画法 (SOCP) を用いて, 最悪のサロゲート損失を最小限に抑えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-22T13:49:53Z) - Optimal Linear Signal: An Unsupervised Machine Learning Framework to
Optimize PnL with Linear Signals [0.0]
本研究では、定量的ファイナンスにおける利益と損失(PnL)の最適化のための教師なし機械学習手法を提案する。
我々のアルゴリズムは、線形回帰の教師なし変種と同様、外部変数から線形に構築された信号から生成されたPnLのシャープ比を最大化する。
論文 参考訳(メタデータ) (2023-11-22T21:10:59Z) - Linearity Grafting: Relaxed Neuron Pruning Helps Certifiable Robustness [172.61581010141978]
証明可能な堅牢性は、安全クリティカルなシナリオでディープニューラルネットワーク(DNN)を採用する上で望ましい特性である。
線形性の適切なレベルを「グラフト」することで、神経細胞を戦略的に操作する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2022-06-15T22:42:29Z) - Understanding the Role of Nonlinearity in Training Dynamics of
Contrastive Learning [37.27098255569438]
本研究では,1層および2層非線形ネットワーク上でのコントラスト学習(CL)の学習力学における非線形性の役割について検討する。
非線形性の存在は1層設定においても多くの局所最適性をもたらすことを示す。
グローバルレベルパターンの観点から識別可能な局所パターンを優先的に学習する。
論文 参考訳(メタデータ) (2022-06-02T23:52:35Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。