論文の概要: Transferable Model-agnostic Vision-Language Model Adaptation for Efficient Weak-to-Strong Generalization
- arxiv url: http://arxiv.org/abs/2508.08604v1
- Date: Tue, 12 Aug 2025 03:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.287824
- Title: Transferable Model-agnostic Vision-Language Model Adaptation for Efficient Weak-to-Strong Generalization
- Title(参考訳): 効率的な弱-ストロング一般化のためのトランスファタブルモデル非依存型視覚-言語モデル適応
- Authors: Jihwan Park, Taehoon song, Sanghyeok Lee, Miso Choi, Hyunwoo J. Kim,
- Abstract要約: 視覚言語モデルのためのトランスミタブルモデル非依存アダプタ(TransMiter)を提案する。
TransMiterは、事前訓練されたVLMと微調整されたVLMの間の知識ギャップをキャプチャする。
バックプロパゲーションを必要とせずに、異なるモデル間でシームレスに転送できる。
- 参考スコア(独自算出の注目度): 15.378835225295923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have been widely used in various visual recognition tasks due to their remarkable generalization capabilities. As these models grow in size and complexity, fine-tuning becomes costly, emphasizing the need to reuse adaptation knowledge from 'weaker' models to efficiently enhance 'stronger' ones. However, existing adaptation transfer methods exhibit limited transferability across models due to their model-specific design and high computational demands. To tackle this, we propose Transferable Model-agnostic adapter (TransMiter), a light-weight adapter that improves vision-language models 'without backpropagation'. TransMiter captures the knowledge gap between pre-trained and fine-tuned VLMs, in an 'unsupervised' manner. Once trained, this knowledge can be seamlessly transferred across different models without the need for backpropagation. Moreover, TransMiter consists of only a few layers, inducing a negligible additional inference cost. Notably, supplementing the process with a few labeled data further yields additional performance gain, often surpassing a fine-tuned stronger model, with a marginal training cost. Experimental results and analyses demonstrate that TransMiter effectively and efficiently transfers adaptation knowledge while preserving generalization abilities across VLMs of different sizes and architectures in visual recognition tasks.
- Abstract(参考訳): 視覚言語モデル(VLM)は、その顕著な一般化能力のため、様々な視覚認識タスクに広く用いられている。
これらのモデルのサイズと複雑さが大きくなるにつれて、微調整はコストがかかるようになり、"weaker"モデルから適応知識を再利用して"stronger"モデルを強化する必要性を強調している。
しかし、既存の適応転送手法はモデル固有の設計と高い計算要求のため、モデル間での転送可能性に制限がある。
そこで本研究では,トランスファーブルモデル非依存アダプタ(TransMiter)を提案する。
TransMiterは、事前訓練されたVLMと微調整されたVLMの知識ギャップを'教師なし'な方法でキャプチャする。
トレーニングが完了すると、バックプロパゲーションを必要とせずに、この知識を異なるモデル間でシームレスに転送することができる。
さらに、TransMiterはわずか数レイヤで構成されており、無視できる追加の推論コストを発生させる。
特に、いくつかのラベル付きデータで処理を補完すると、さらなるパフォーマンス向上が得られ、しばしば細調整されたより強力なモデルを超え、限界的なトレーニングコストがかかる。
実験結果と解析結果から、TransMiterは視覚認識タスクにおいて、異なるサイズとアーキテクチャのVLMにまたがる一般化能力を保ちながら、適応知識を効果的かつ効率的に転送することを示した。
関連論文リスト
- TDS-CLIP: Temporal Difference Side Network for Efficient VideoAction Recognition [22.84073695186728]
本稿では,知識伝達と時間的モデリングのバランスをとるために,メモリ効率の良い時間差分側ネットワーク(TDS-CLIP)を提案する。
具体的には、動作特徴の局所的な時間差を効果的に捉えることのできる時間差適応器(TD-Adapter)を導入する。
また,ビデオ中のリッチモーション情報を効率的に学習するために,提案するサイドネットワークを誘導するサイドモーション拡張アダプタ(SME-Adapter)を設計した。
論文 参考訳(メタデータ) (2024-08-20T09:40:08Z) - Encapsulating Knowledge in One Prompt [56.31088116526825]
KiOPは、元のモデルを変更したり、トレーニングデータにアクセスする必要なしに、さまざまなモデルからの知識を単独のプロンプトにカプセル化する。
実用性の観点から、このパラダイムは、データアクセス不能なコンテキストにおけるVisual Promptの有効性を証明している。
様々なデータセットとモデルを用いた実験は、提案したKiOP知識伝達パラダイムの有効性を示す。
論文 参考訳(メタデータ) (2024-07-16T16:35:23Z) - Boosting Vision-Language Models with Transduction [12.281505126587048]
本稿では,視覚言語モデルのための新しい,計算効率の良いトランスダクティブアプローチであるTransCLIPを提案する。
TransCLIPは、一般的なinductive zero- and few-shotモデルの上に、プラグイン・アンド・プレイモジュールとして適用することができる。
論文 参考訳(メタデータ) (2024-06-03T23:09:30Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。