論文の概要: 1%>100%: High-Efficiency Visual Adapter with Complex Linear Projection Optimization
- arxiv url: http://arxiv.org/abs/2602.10513v1
- Date: Wed, 11 Feb 2026 04:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.464282
- Title: 1%>100%: High-Efficiency Visual Adapter with Complex Linear Projection Optimization
- Title(参考訳): 1%>100%:複雑線形投影最適化を用いた高能率ビジュアルアダプタ
- Authors: Dongshuo Yin, Xue Yang, Deng-Ping Fan, Shi-Min Hu,
- Abstract要約: 視覚タスクのための複雑な線形投影最適化(CoLin)を用いたアダプタを提案する。
アーキテクチャのために、バックボーンに約1%のパラメータしか導入しない新しい低ランク複合アダプタを設計する。
効率向上のために,低ランク複合行列がトレーニング中に深刻な収束問題に悩まされることを理論的に証明し,この課題を調整された損失で解決する。
- 参考スコア(独自算出の注目度): 34.782932303597825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying vision foundation models typically relies on efficient adaptation strategies, whereas conventional full fine-tuning suffers from prohibitive costs and low efficiency. While delta-tuning has proven effective in boosting the performance and efficiency of LLMs during adaptation, its advantages cannot be directly transferred to the fine-tuning pipeline of vision foundation models. To push the boundaries of adaptation efficiency for vision tasks, we propose an adapter with Complex Linear Projection Optimization (CoLin). For architecture, we design a novel low-rank complex adapter that introduces only about 1% parameters to the backbone. For efficiency, we theoretically prove that low-rank composite matrices suffer from severe convergence issues during training, and address this challenge with a tailored loss. Extensive experiments on object detection, segmentation, image classification, and rotated object detection (remote sensing scenario) demonstrate that CoLin outperforms both full fine-tuning and classical delta-tuning approaches with merely 1% parameters for the first time, providing a novel and efficient solution for deployment of vision foundation models. We release the code on https://github.com/DongshuoYin/CoLin.
- Abstract(参考訳): ビジョンファウンデーションモデルの展開は、通常、効率的な適応戦略に依存するが、従来のフルチューニングは、禁止的なコストと低い効率に悩まされている。
デルタチューニングは、適応中にLCMの性能と効率を高めるのに有効であることが証明されているが、その利点は視覚基礎モデルの微調整パイプラインに直接転送することはできない。
視覚タスクの適応効率の境界を押し上げるために,複雑な線形投影最適化(CoLin)を用いたアダプタを提案する。
アーキテクチャのために、バックボーンに約1%のパラメータしか導入しない新しい低ランク複合アダプタを設計する。
効率向上のために,低ランク複合行列がトレーニング中に深刻な収束問題に悩まされることを理論的に証明し,この課題を調整された損失で解決する。
オブジェクト検出、セグメンテーション、画像分類、回転オブジェクト検出(リモートセンシングシナリオ)に関する大規模な実験は、CoLinが完全な微調整と古典的なデルタ調整の両方を初めて1%のパラメータで上回り、視覚基盤モデルの展開に新しく効率的なソリューションを提供することを示した。
私たちはhttps://github.com/DongshuoYin/CoLin.comでコードを公開しています。
関連論文リスト
- LIFT+: Lightweight Fine-Tuning for Long-Tail Learning [45.187004699024435]
LIFT+は一貫性のあるクラス条件を最適化する革新的な軽量な微調整フレームワークである。
我々のフレームワークは、高速収束とモデルコンパクト化を容易にする効率的で正確なパイプラインを提供する。
論文 参考訳(メタデータ) (2025-04-17T18:50:47Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation [30.912818564963512]
DETRISは、低ランクな視覚的特徴伝達を強化するために設計されたパラメータ効率のチューニングフレームワークである。
我々の単純で効率的なアプローチは、最先端のメソッドを大きく上回り、0.9%から1.8%のバックボーンパラメーターが更新される。
論文 参考訳(メタデータ) (2025-01-15T05:00:03Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Parameter Efficient Adaptation for Image Restoration with Heterogeneous Mixture-of-Experts [52.39959535724677]
画像復元モデルの一般化を改善するための代替手法を提案する。
ローカル,グローバル,チャネル表現ベースをキャプチャするマルチブランチ設計のMixture-of-Experts (MoE) であるAdaptIRを提案する。
我々のAdaptIRは、単一劣化タスクにおける安定した性能を実現し、8時間間、微調整はわずか0.6%のパラメータしか持たず、ハイブリッド劣化タスクにおいて優れる。
論文 参考訳(メタデータ) (2023-12-12T14:27:59Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。
RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文 参考訳(メタデータ) (2023-02-16T06:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。