Fugu-MT 論文翻訳(概要): Revisiting Prefix-tuning: Statistical Benefits of Reparameterization among Prompts

論文の概要: Revisiting Prefix-tuning: Statistical Benefits of Reparameterization among Prompts

arxiv url: http://arxiv.org/abs/2410.02200v1
Date: Thu, 3 Oct 2024 04:30:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 08:06:03.806592
Title: Revisiting Prefix-tuning: Statistical Benefits of Reparameterization among Prompts
Title（参考訳）: プレフィックスチューニングの再検討:プロンプトにおける再パラメータ化の統計的メリット
Authors: Minh Le, Chau Nguyen, Huy Nguyen, Quyen Tran, Trung Le, Nhat Ho,
Abstract要約: 本研究では,大規模事前学習モデルの微調整のためのプロンプトベース手法の理論的基礎について検討する。再パラメータ化は単なる工学的トリックではなく、深い理論的基礎に根ざしていることを示す。本研究は,プロンプトベース手法の理解を深める上で,理論的および経験的貢献を提供するものである。
参考スコア（独自算出の注目度）: 36.88984387787463
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompt-based techniques, such as prompt-tuning and prefix-tuning, have gained prominence for their efficiency in fine-tuning large pre-trained models. Despite their widespread adoption, the theoretical foundations of these methods remain limited. For instance, in prefix-tuning, we observe that a key factor in achieving performance parity with full fine-tuning lies in the reparameterization strategy. However, the theoretical principles underpinning the effectiveness of this approach have yet to be thoroughly examined. Our study demonstrates that reparameterization is not merely an engineering trick but is grounded in deep theoretical foundations. Specifically, we show that the reparameterization strategy implicitly encodes a shared structure between prefix key and value vectors. Building on recent insights into the connection between prefix-tuning and mixture of experts models, we further illustrate that this shared structure significantly improves sample efficiency in parameter estimation compared to non-shared alternatives. The effectiveness of prefix-tuning across diverse tasks is empirically confirmed to be enhanced by the shared structure, through extensive experiments in both visual and language domains. Additionally, we uncover similar structural benefits in prompt-tuning, offering new perspectives on its success. Our findings provide theoretical and empirical contributions, advancing the understanding of prompt-based methods and their underlying mechanisms.
Abstract（参考訳）: プロンプトベースの技法、例えばプロンプトチューニング(英語版)やプレフィックスチューニング(英語版)は、微調整された大規模な事前訓練モデルにおいて、その効率が顕著になった。広く採用されているにもかかわらず、これらの手法の理論的基礎は依然として限られている。例えば、プレフィックスチューニングでは、完全な微調整でパフォーマンスパリティを達成する上で重要な要素は、再パラメータ化戦略にある。しかし、このアプローチの有効性を裏付ける理論的原理はまだ十分に検討されていない。我々の研究は、再パラメータ化は単なる工学的なトリックではなく、深い理論的基礎に根ざしていることを示している。具体的には,プレフィックスキーと値ベクトル間の共有構造を暗黙的に符号化する。プレフィックスチューニングとエキスパートモデルの混合に関する最近の知見に基づいて、この共有構造は非共有モデルと比較してパラメータ推定におけるサンプル効率を著しく改善することを示す。様々なタスクにまたがるプレフィックスチューニングの有効性は、視覚領域と言語領域の両方での広範な実験を通じて、共有構造によって拡張されることを実証的に確認する。さらに、我々は、プロンプトチューニングにおける同様の構造的利点を明らかにし、その成功に対する新たな視点を提供します。本研究は,プロンプトに基づく手法とその基盤となるメカニズムの理解を深め,理論的および経験的貢献を提供する。

関連論文リスト

Symmetric Pruning of Large Language Models [61.309982086292756]
Wanda や RIA のような訓練後プルニングの手法は、シンプルだが効果的な設計で知られている。本稿では, プルーニングの標準最小化目標を再定義する新たな理論的知見を紹介する。本稿では,入力アクティベーションと重みの両面を考慮した補完戦略を提案する。
論文参考訳（メタデータ） (2025-01-31T09:23:06Z)
Exogenous Matching: Learning Good Proposals for Tractable Counterfactual Estimation [1.9662978733004601]
本稿では, 抽出可能かつ効率的な対実表現推定のための重要サンプリング手法を提案する。対物推定器の共通上限を最小化することにより、分散最小化問題を条件分布学習問題に変換する。構造因果モデル (Structure Causal Models, SCM) の様々なタイプと設定による実験による理論的結果の検証と, 対実推定タスクにおける性能の実証を行った。
論文参考訳（メタデータ） (2024-10-17T03:08:28Z)
See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition [56.87609859444084]
パラメータ効率の細かいチューニング(PEFT)は、パラメータの選択したサブセットを最適化し、残りを固定し、計算とストレージのオーバーヘッドを大幅に削減することに焦点を当てている。分解の観点からそれらを分離することで、すべてのアプローチを統一する第一歩を踏み出します。本稿では,PEFT技術の性能向上を目的とした,単純かつ効果的なフレームワークとともに,新しい2つのPEFT手法を提案する。
論文参考訳（メタデータ） (2024-07-07T15:44:42Z)
Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文参考訳（メタデータ） (2023-06-09T08:30:51Z)
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文参考訳（メタデータ） (2023-03-10T14:38:49Z)
Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文参考訳（メタデータ） (2021-10-08T20:22:26Z)
ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文参考訳（メタデータ） (2020-12-02T00:07:53Z)
Theoretical Modeling of the Iterative Properties of User Discovery in a Collaborative Filtering Recommender System [0.0]
レコメンデータシステムにおけるクローズドなフィードバックループは、さまざまな種類のバイアスを引き起こす可能性がある一般的な設定である。本稿では,フィードバックループ設定内で動作するレコメンデータシステムの様々なコンポーネントの進化をモデル化するための理論的枠組みを提案する。本研究は,フィードバックループの効果を定量化し,人工知能と機械学習アルゴリズムを設計するための理論的基礎を定めている。
論文参考訳（メタデータ） (2020-08-21T20:30:39Z)
Nonparametric inference for interventional effects with multiple mediators [0.0]
より柔軟で、おそらく機械学習に基づく推定技術を可能にする理論を提供する。提案した推定器の複数のロバスト性特性を示す。本研究は, 介入媒介効果の推定において, 最新の統計的学習手法を活用する手段を提供する。
論文参考訳（メタデータ） (2020-01-16T19:05:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。