論文の概要: Coeff-Tuning: A Graph Filter Subspace View for Tuning Attention-Based Large Models
- arxiv url: http://arxiv.org/abs/2503.18337v1
- Date: Mon, 24 Mar 2025 04:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:16.838292
- Title: Coeff-Tuning: A Graph Filter Subspace View for Tuning Attention-Based Large Models
- Title(参考訳): Coeff-Tuning: 注意に基づく大規模モデルの調整のためのグラフフィルタサブスペースビュー
- Authors: Zichen Miao, Wei Chen, Qiang Qiu,
- Abstract要約: トランスフォーマーベースの大規模事前学習モデルでは、顕著な一般化能力を示している。
パラメータ効率のよい細調整(PEFT)法は、これらのモデルを最小限の計算とメモリ予算で下流タスクでカスタマイズするために提案されている。
本稿では,より表現力のあるフィルタ部分空間を構成する結合係数の小さな集合を学習し,事前学習された大きな変圧器をチューニングすることを提案する。
- 参考スコア(独自算出の注目度): 28.223665047553016
- License:
- Abstract: Transformer-based large pre-trained models have shown remarkable generalization ability, and various parameter-efficient fine-tuning (PEFT) methods have been proposed to customize these models on downstream tasks with minimal computational and memory budgets. Previous PEFT methods are primarily designed from a tensor-decomposition perspective that tries to effectively tune the linear transformation by finding the smallest subset of parameters to train. Our study adopts an orthogonal view by representing the attention operation as a graph convolution and formulating the multi-head attention maps as a convolutional filter subspace, with each attention map as a subspace element. In this paper, we propose to tune the large pre-trained transformers by learning a small set of combination coefficients that construct a more expressive filter subspace from the original multi-head attention maps. We show analytically and experimentally that the tuned filter subspace can effectively expand the feature space of the multi-head attention and further enhance the capacity of transformers. We further stabilize the fine-tuning with a residual parameterization of the tunable subspace coefficients, and enhance the generalization with a regularization design by directly applying dropout on the tunable coefficient during training. The tunable coefficients take a tiny number of parameters and can be combined with previous PEFT methods in a plug-and-play manner. Extensive experiments show that our approach achieves superior performances than PEFT baselines with neglectable additional parameters.
- Abstract(参考訳): トランスフォーマーをベースとした大規模事前学習モデルでは、大幅な一般化能力を示し、様々なパラメータ効率の微調整(PEFT)手法が提案されており、これらのモデルを下流タスクで最小限の計算とメモリ予算でカスタマイズすることができる。
従来のPEFT法は主にテンソル分解の観点から設計されており、トレーニングするパラメータの最小サブセットを見つけることで線形変換を効果的に調整しようとする。
本研究では,アテンション操作をグラフ畳み込みとして表現し,マルチヘッドアテンションマップを畳み込みフィルタ部分空間として,各アテンションマップを部分空間要素として定式化する。
本稿では,従来のマルチヘッドアテンションマップからより表現力のあるフィルタ部分空間を構成する結合係数の小さな集合を学習し,事前学習された大きなトランスフォーマーをチューニングすることを提案する。
解析的および実験的に、調整されたフィルタ部分空間はマルチヘッドアテンションの特徴空間を効果的に拡張し、トランスのキャパシティをさらに高めることができることを示す。
さらに、調整可能な部分空間係数の残留パラメータ化による微調整を安定化し、トレーニング中に調整可能な係数にドロップアウトを直接適用することにより、正規化設計による一般化を強化する。
可変係数は少数のパラメータを持ち、プラグ・アンド・プレイ方式で従来のPEFT法と組み合わせることができる。
その結果,提案手法はPEFTベースラインよりも高い性能を達成し,追加パラメータを無視できることが示唆された。
関連論文リスト
- ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Spectral Adapter: Fine-Tuning in Spectral Space [45.72323731094864]
本研究では, 既訓練重量行列のスペクトル情報を微調整手順に組み込むことにより, 現在のPEFT法の強化について検討した。
提案するファインチューニングモデルにより,パラメータ効率とチューニング性能が向上し,マルチアダプタ融合のメリットが期待できることを示す。
論文 参考訳(メタデータ) (2024-05-22T19:36:55Z) - Large Convolutional Model Tuning via Filter Subspace [28.223665047553016]
本稿では,空間のみの畳み込みの原因となるフィルタ原子のみを調整し,事前学習モデルの微調整を提案する。
このような単純なスキームは、識別的タスクと生成的タスクの両方において、以前のチューニングベースラインを超えていることが示される。
論文 参考訳(メタデータ) (2024-03-01T04:16:08Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization [102.92240148504774]
下流タスク適応のための原則的微調整パラダイムである直交微調整(Orthogonal Finetuning, OFT)について検討する。
優れた一般化性を示しているにもかかわらず、OFTはまだかなり多くのトレーニング可能なパラメータを使っている。
我々はこのパラメータ化をOFTに適用し、ORFT(Orthogonal Butterfly)と呼ばれる新しいパラメータ効率の微調整法を開発した。
論文 参考訳(メタデータ) (2023-11-10T18:59:54Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - A Closer Look at Parameter-Efficient Tuning in Diffusion Models [39.52999446584842]
安定拡散のような大規模拡散モデルは強力であり、様々な現実世界の応用を見出すことができる。
学習可能な小モジュールを挿入することにより,大規模拡散モデルにおけるパラメータ効率の調整について検討する。
論文 参考訳(メタデータ) (2023-03-31T16:23:29Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Spectral Tensor Train Parameterization of Deep Learning Layers [136.4761580842396]
重み行列の低ランクパラメータ化をDeep Learningコンテキストに埋め込まれたスペクトル特性を用いて検討する。
分類設定におけるニューラルネットワーク圧縮の効果と,生成的対角トレーニング設定における圧縮および安定性トレーニングの改善について述べる。
論文 参考訳(メタデータ) (2021-03-07T00:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。