論文の概要: TuckA: Hierarchical Compact Tensor Experts for Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2511.06859v1
- Date: Mon, 10 Nov 2025 09:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.174918
- Title: TuckA: Hierarchical Compact Tensor Experts for Efficient Fine-Tuning
- Title(参考訳): TuckA: 効率的なファインチューニングのための階層型テンソルエキスパート
- Authors: Qifeng Lei, Zhiyong Yang, Qianqian Xu, Cong Hua, Peisong Wen, Qingming Huang,
- Abstract要約: 4つのキー特性を持つTucker Adaptation(TuckA)を導入する。
我々は,ルータのパラメータサイズを$L$の係数で削減する,効率的なバッチレベルルーティング機構を開発した。
自然言語理解、画像分類、数学的推論におけるベンチマーク実験は、TuckAの有効性を物語っている。
- 参考スコア(独自算出の注目度): 83.93651411533533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently fine-tuning pre-trained models for downstream tasks is a key challenge in the era of foundation models. Parameter-efficient fine-tuning (PEFT) presents a promising solution, achieving performance comparable to full fine-tuning by updating only a small number of adaptation weights per layer. Traditional PEFT methods typically rely on a single expert, where the adaptation weight is a low-rank matrix. However, for complex tasks, the data's inherent diversity poses a significant challenge for such models, as a single adaptation weight cannot adequately capture the features of all samples. To address this limitation, we explore how to integrate multiple small adaptation experts into a compact structure to defeat a large adapter. Specifically, we propose Tucker Adaptation (TuckA), a method with four key properties: (i) We use Tucker decomposition to create a compact 3D tensor where each slice naturally serves as an expert. The low-rank nature of this decomposition ensures that the number of parameters scales efficiently as more experts are added. (ii) We introduce a hierarchical strategy that organizes these experts into groups at different granularities, allowing the model to capture both local and global data patterns. (iii) We develop an efficient batch-level routing mechanism, which reduces the router's parameter size by a factor of $L$ compared to routing at every adapted layer (where $L$ is the number of adapted layers) (iv) We propose data-aware initialization to achieve loss-free expert load balancing based on theoretical analysis. Extensive experiments on benchmarks in natural language understanding, image classification, and mathematical reasoning speak to the efficacy of TuckA, offering a new and effective solution to the PEFT problem.
- Abstract(参考訳): 下流タスクのための訓練済みモデルを効果的に微調整することは、基礎モデルの時代において重要な課題である。
パラメータ効率のよいファインチューニング(PEFT)は有望なソリューションであり、層ごとの適応重みをわずかに更新することで、フルファインチューニングに匹敵する性能を達成する。
従来のPEFT法は、適応重みが低ランク行列であるような単一の専門家に依存している。
しかし、複雑なタスクでは、データ固有の多様性は、単一の適応重みが全てのサンプルの特徴を適切に捉えることができないため、そのようなモデルにとって重要な課題となる。
この制限に対処するために、我々は複数の小型適応の専門家をコンパクトな構造に統合し、大きなアダプタを倒す方法について検討する。
具体的には,4つのキー特性を持つTucker Adaptation(TuckA)を提案する。
i) タッカー分解を用いてコンパクトな3次元テンソルを作り、それぞれのスライスが自然に専門家として機能する。
この分解の低ランクの性質は、多くの専門家が加わるにつれてパラメータの数が効率的にスケールすることを保証する。
(II)これらの専門家を異なる粒度のグループに分類し、局所的およびグローバルなデータパターンの両方を捉える階層的戦略を導入する。
3) 適応層(適応層数)のルーティングと比較してルータのパラメータサイズを$L$の係数で削減する効率的なバッチレベルルーティング機構を開発する。
(4)理論解析に基づく損失のない専門家負荷分散を実現するためのデータ認識初期化を提案する。
自然言語理解、画像分類、数学的推論のベンチマークに関する広範な実験は、TuckAの有効性に言及し、PEFT問題に対する新しい効果的な解決策を提供する。
関連論文リスト
- A Survey on Parameter-Efficient Fine-Tuning for Foundation Models in Federated Learning [5.280048850098648]
ファンデーションモデルは、大規模データセットで事前トレーニングされた堅牢で汎用的なアーキテクチャを提供することによって、人工知能に革命をもたらした。
これらの巨大なモデルを特定の下流タスクに適用するには、微調整が必要である。
本調査は,フェデレート学習環境におけるPEFT技術の統合に関する総合的なレビューを提供する。
論文 参考訳(メタデータ) (2025-04-29T18:18:39Z) - MoLEx: Mixture of Layer Experts for Finetuning with Sparse Upcycling [2.1605931466490795]
深層モデルの大規模事前学習と微調整が自然言語処理(NLP)の基盤となっている。
本稿では,異なるタイプの言語情報の抽出器としてレイヤについて検討する。
我々は,事前学習モデルのレイヤーである専門家の疎結合であるMix of Layer Experts(Molex)を提案する。
論文 参考訳(メタデータ) (2025-03-14T07:22:07Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - RECAST: Reparameterized, Compact weight Adaptation for Sequential Tasks [16.512587987753967]
RECASTはタスク固有のトレーニング可能なパラメータを50未満に劇的に削減する新しい手法である。
本稿では,RECASTが様々なスケール,アーキテクチャ,パラメータ空間において,最先端の技術を最大3%向上させることを示す。
論文 参考訳(メタデータ) (2024-11-25T19:08:38Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文 参考訳(メタデータ) (2021-03-30T23:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。