論文の概要: Parameter-Efficient Fine-Tuning Design Spaces
- arxiv url: http://arxiv.org/abs/2301.01821v1
- Date: Wed, 4 Jan 2023 21:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:26:06.228570
- Title: Parameter-Efficient Fine-Tuning Design Spaces
- Title(参考訳): パラメータ効率の良いファインチューニング設計空間
- Authors: Jiaao Chen, Aston Zhang, Xingjian Shi, Mu Li, Alex Smola, Diyi Yang
- Abstract要約: パラメータ効率の良いファインチューニング設計パラダイムを提案し、異なる実験環境に適用可能な設計パターンを探索する。
実験により,これらの手法は,異なるバックボーンモデルと自然言語処理における異なるタスク間のパラメータ効率の高い微調整戦略を連続的に,かつ著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 63.954953653386106
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Parameter-efficient fine-tuning aims to achieve performance comparable to
fine-tuning, using fewer trainable parameters. Several strategies (e.g.,
Adapters, prefix tuning, BitFit, and LoRA) have been proposed. However, their
designs are hand-crafted separately, and it remains unclear whether certain
design patterns exist for parameter-efficient fine-tuning. Thus, we present a
parameter-efficient fine-tuning design paradigm and discover design patterns
that are applicable to different experimental settings. Instead of focusing on
designing another individual tuning strategy, we introduce parameter-efficient
fine-tuning design spaces that parameterize tuning structures and tuning
strategies. Specifically, any design space is characterized by four components:
layer grouping, trainable parameter allocation, tunable groups, and strategy
assignment. Starting from an initial design space, we progressively refine the
space based on the model quality of each design choice and make greedy
selection at each stage over these four components. We discover the following
design patterns: (i) group layers in a spindle pattern; (ii) allocate the
number of trainable parameters to layers uniformly; (iii) tune all the groups;
(iv) assign proper tuning strategies to different groups. These design patterns
result in new parameter-efficient fine-tuning methods. We show experimentally
that these methods consistently and significantly outperform investigated
parameter-efficient fine-tuning strategies across different backbone models and
different tasks in natural language processing.
- Abstract(参考訳): パラメータ効率のよい微調整は、少ないトレーニング可能なパラメータを使って、微調整に匹敵するパフォーマンスを達成することを目的としている。
いくつかの戦略(Adapters、プレフィックスチューニング、BitFit、LoRAなど)が提案されている。
しかし、それらのデザインは別々に手作りされており、パラメーター効率の良い微調整のためのデザインパターンが存在するかどうかは不明である。
そこで,我々はパラメータ効率の良い微調整設計パラダイムを提案し,異なる実験環境に適用可能な設計パターンを探索する。
個別のチューニング戦略を設計する代わりに、チューニング構造やチューニング戦略をパラメータ化するパラメータ効率の良い微調整設計空間を導入する。
具体的には、レイヤグループ化、トレーニング可能なパラメータ割り当て、チューニング可能なグループ、戦略割り当ての4つのコンポーネントによって特徴づけられる。
初期設計空間から始めて、各設計選択のモデル品質に基づいて空間を段階的に洗練し、これらの4つのコンポーネントに対して各ステージでグリーディ選択を行う。
以下のデザインパターンを発見します
(i)スピンドルパターンの群層
2) 訓練可能なパラメータの数を均一にレイヤに割り当てること。
(iii)すべてのグループをチューニングする。
(4)異なるグループに適切なチューニング戦略を割り当てる。
これらの設計パターンは、新しいパラメータ効率の微調整手法をもたらす。
実験により,これらの手法は,異なるバックボーンモデルと自然言語処理における異なるタスク間のパラメータ効率の高い微調整戦略を連続的に,かつ著しく上回ることを示した。
関連論文リスト
- Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Compositional Generative Inverse Design [69.22782875567547]
入力変数を設計して目的関数を最適化する逆設計は重要な問題である。
拡散モデルにより得られた学習エネルギー関数を最適化することにより、そのような逆例を避けることができることを示す。
N-body 相互作用タスクと2次元多面体設計タスクにおいて,実験時に学習した拡散モデルを構成することにより,初期状態と境界形状を設計できることを示す。
論文 参考訳(メタデータ) (2024-01-24T01:33:39Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Tree-Structured Parzen Estimator: Understanding Its Algorithm Components
and Their Roles for Better Empirical Performance [1.370633147306388]
木構造型Parzen estimator (TPE) は最近のパラメータチューニングフレームワークで広く利用されている。
その人気にもかかわらず、制御パラメーターとアルゴリズム直観の役割は今のところ議論されていない。
論文 参考訳(メタデータ) (2023-04-21T17:02:38Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z) - Meta Reinforcement Learning for Optimal Design of Legged Robots [9.054187238463212]
モデルなしメタ強化学習を用いた設計最適化フレームワークを提案する。
提案手法は,事前定義された動作や歩行パターンに制約されずに,より高い性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-06T08:37:52Z) - Parameter Tuning Strategies for Metaheuristic Methods Applied to
Discrete Optimization of Structural Design [0.0]
本稿では, 鉄筋コンクリート(RC)構造物の設計最適化のためのメタヒューリスティック手法のパラメータを調整するためのいくつかの手法を提案する。
平均性能曲線の下での面積に基づいて, 実用性指標を提案する。
論文 参考訳(メタデータ) (2021-10-12T17:34:39Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z) - MO-PaDGAN: Reparameterizing Engineering Designs for Augmented
Multi-objective Optimization [13.866787416457454]
多目的最適化は多くのエンジニアリング設計問題を解決する上で鍵となる。
深い生成モデルはコンパクトなデザイン表現を学ぶことができる。
Mo-PaDGANは、生成的対向ネットワークに決定的ポイントプロセスに基づく損失関数を追加する。
論文 参考訳(メタデータ) (2020-09-15T13:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。