論文の概要: AdaRing: Towards Ultra-Light Vision-Language Adaptation via Cross-Layer Tensor Ring Decomposition
- arxiv url: http://arxiv.org/abs/2508.11870v2
- Date: Tue, 19 Aug 2025 21:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 12:38:45.401591
- Title: AdaRing: Towards Ultra-Light Vision-Language Adaptation via Cross-Layer Tensor Ring Decomposition
- Title(参考訳): AdaRing: クロス層テンソルリング分解による超軽量ビジョンランゲージ適応を目指して
- Authors: Ying Huang, Yuanbin Man, Wenqi Jia, Zhengzhong Tu, Junzhou Huang, Miao Yin,
- Abstract要約: 本稿では,多層テンソルリング分解(TRD)に基づく視覚言語微調整フレームワークAdaRingを提案する。
実験の結果,提案したAdaRingは,平均トレーニングパラメータを90%削減しつつ,最先端の性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 41.654675205772485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapter-based fine-tuning has gained remarkable attention in adapting large pre-trained vision language models (VLMs) for a wide range of downstream tasks efficiently. In this paradigm, only the inserted adapters are fine-tuned, without the need for training the original VLM backbone. Existing works scale adapters by integrating them into every layer of VLMs to increase the capacity of adapters. However, these methods face two primary limitations: 1) limited compression rate due to ignoring cross-layer redundancy, and 2) limited representational capacity across homogeneous adapters. In this paper, we propose a novel vision-language fine-tuning framework based on cross-layer tensor ring decomposition (TRD) with the integration and collaboration of diverse adapters, called AdaRing, achieving ultra-light parameter-efficient adaptation of VLMs on various tasks. To remove the high redundancy that exists among adapters across layers, we exploit the tensor-level low-rankness to formulate adapters as layer-shared tensor cores and layer-specific slices. Moreover, guided by generalization-aware fine-tuning, diverse rank-driven adapters cooperate to handle tasks that require different representations. Our experiments show that the proposed AdaRing achieves the state-of-the-art performance while reducing average training parameters by 90%.
- Abstract(参考訳): 適応型微調整は、広範囲の下流タスクに大規模な事前学習型視覚言語モデル(VLM)を効果的に適用する際、顕著な注目を集めている。
このパラダイムでは、挿入されたアダプタだけが、元のVLMバックボーンをトレーニングすることなく、微調整される。
既存のワークスは、アダプタの容量を増やすためにVLMのすべての層に統合することで、アダプタをスケールする。
しかし、これらの手法は2つの主要な制限に直面している。
1) 層間冗長性を無視した圧縮速度の制限
2) 均一なアダプタにまたがる表現能力の制限。
本稿では,多層テンソルリング分解(TRD)に基づく新しい視覚言語微調整フレームワークAdaRingを提案する。
層間アダプター間に存在する高い冗長性を取り除くため,テンソルレベルの低ランク性を利用して,層状テンソルコアや層特異的スライスとしてアダプタを定式化する。
さらに、一般化対応の微調整により、多様なランク駆動アダプタが協調して、異なる表現を必要とするタスクを処理する。
実験の結果,提案したAdaRingは,平均トレーニングパラメータを90%削減しつつ,最先端の性能を実現していることがわかった。
関連論文リスト
- Come Together, But Not Right Now: A Progressive Strategy to Boost Low-Rank Adaptation [21.137278840000366]
低ランク適応(LoRA)は,大規模基盤モデルに適応するためのパラメータ効率の高い微調整手法として登場している。
微調整の過程でアダプタのアクティベーション確率を徐々に高めるプログレッシブトレーニング戦略であるCoToプルーニングを提案する。
論文 参考訳(メタデータ) (2025-06-06T03:33:06Z) - MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning [20.68925288222065]
スパースアダプタの混合(英: Mixture of Sparse Adapters, MoSA)は、新しいアダプタチューニング法である。
MoSAは、余分な計算ストレージオーバーヘッドを伴わずに、標準よりも大幅にパフォーマンスが向上する。
MoSAは、他のAdapter Tuningメソッド、および他のベースラインを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2023-12-05T17:50:55Z) - Selective Feature Adapter for Dense Vision Transformers [30.409313135985528]
選択的機能アダプタ(SFA)は、様々な密集タスクにわたる完全な微調整モデルよりも同等または優れたパフォーマンスを達成する。
SFAは外部アダプタと内部アダプタで構成され、トランスフォーマーモデル上で順次操作される。
実験により、双対アダプタモジュールであるSFAは、高密度視覚タスクにおける最良のトレードオフを達成するために不可欠であることが示されている。
論文 参考訳(メタデータ) (2023-10-03T07:17:58Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Vision Transformer Adapters for Generalizable Multitask Learning [61.79647180647685]
一般化可能なタスク親和性を学習する最初のマルチタスク・ビジョン・トランスフォーマー・アダプタを提案する。
我々のアダプタはパラメータ効率の良い方法で複数の高密度視覚タスクを同時に解くことができる。
並行メソッドとは対照的に、新しいタスクやドメインが追加されるたびに、再トレーニングや微調整は不要です。
論文 参考訳(メタデータ) (2023-08-23T18:40:48Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Adaptable Adapters [74.65986170056945]
最先端のNLPモデルには1億から1兆のパラメータが含まれる。
適応アダプタは異なる層と異なる入力データに対して異なるアクティベーション関数を含む。
適応型アダプタは,標準アダプタアーキテクチャを用いてオンパー性能を実現する。
論文 参考訳(メタデータ) (2022-05-03T14:59:27Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。