論文の概要: FREE: Fast and Robust Vision Language Models with Early Exits
- arxiv url: http://arxiv.org/abs/2506.06884v1
- Date: Sat, 07 Jun 2025 18:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.544884
- Title: FREE: Fast and Robust Vision Language Models with Early Exits
- Title(参考訳): FREE: 早くてロバストな視覚言語モデル
- Authors: Divya Jyoti Bajpai, Manjesh Kumar Hanawal,
- Abstract要約: 我々は、GANベースのフレームワークにおいて、敵対的なトレーニングアプローチであるFREEを紹介する。
提案手法は,最小限の性能低下で推論速度を向上する入力適応推論を実行することに焦点を当てる。
我々は,提案手法が比較性能を維持しつつ,1.51倍以上の速度で推論処理を高速化することを確認した。
- 参考スコア(独自算出の注目度): 5.402030962296633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Vision-Language Models (VLMs) have shown remarkable performance improvements in Vision-Language tasks. However, their large size poses challenges for real-world applications where inference latency is a concern. To tackle this issue, we propose employing Early Exit (EE) strategies in VLMs. However, training exit classifiers in VLMs is challenging, particularly with limited labeled training data. To address this, we introduce FREE, an adversarial training approach within a GAN-based framework. Here, each exit consists of a transformer layer and a classifier. The transformer layer is adversarially trained to produce feature representations similar to the final layer, while a feature classifier serves as the discriminator. Our method focuses on performing input-adaptive inference that increases inference speed with minimal drop in performance. Experimental results demonstrate the effectiveness of our approach in enhancing accuracy and model robustness by mitigating overthinking and the phenomenon of mid-crisis that we highlight. We experimentally validate that our method speeds up the inference process by more than 1.51x while retaining comparable performance. The source code is available at https://github.com/Div290/FREE.
- Abstract(参考訳): 近年,視覚言語モデル (VLM) では視覚言語タスクの性能が著しく向上している。
しかし、その大きなサイズは、推論レイテンシが懸念される現実世界のアプリケーションに課題をもたらす。
この問題に対処するために,我々はVLMにおけるEarly Exit(EE)戦略の採用を提案する。
しかしながら、特にラベル付きトレーニングデータでは、VLMにおけるトレーニング出口分類器は困難である。
この問題に対処するために,我々は,GANベースのフレームワーク内での対角的トレーニングアプローチであるFREEを紹介した。
ここで、各出口は変圧器層と分類器からなる。
変換器層は、最終層に似た特徴表現を生成するために逆向きに訓練され、特徴分類器は識別器として機能する。
提案手法は,最小限の性能低下で推論速度を向上する入力適応推論を実行することに焦点を当てる。
実験結果から,過度に考えることによる精度向上とモデルロバスト性向上へのアプローチの有効性と,我々が強調する中間危機現象が示唆された。
我々は,提案手法が比較性能を維持しつつ,1.51倍以上の速度で推論処理を高速化することを確認した。
ソースコードはhttps://github.com/Div290/FREEで入手できる。
関連論文リスト
- Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。
視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。
実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文 参考訳(メタデータ) (2025-03-26T04:16:48Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。