論文の概要: FrEVL: Leveraging Frozen Pretrained Embeddings for Efficient Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2508.04469v1
- Date: Wed, 06 Aug 2025 14:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.752397
- Title: FrEVL: Leveraging Frozen Pretrained Embeddings for Efficient Vision-Language Understanding
- Title(参考訳): FrEVL: 効率的な視覚・言語理解のための凍結保存型埋め込みの活用
- Authors: Emmanuelle Bourigault, Pauline Bourigault,
- Abstract要約: 凍結した事前学習した埋め込みが視覚言語を効果的に理解できるかどうかを探索するフレームワークである textbfFrEVL を提案する。
解析の結果, 凍結埋没には識別タスクの豊富な情報が含まれており, 68.4Mのトレーニング可能なパラメータしか持たない標準ベンチマークにおいて, 最先端性能の85%から95%が達成されていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The deployment of vision-language models remains constrained by substantial computational requirements. We present \textbf{FrEVL}, a framework exploring whether frozen pretrained embeddings can support effective vision-language understanding. Our analysis reveals that frozen embeddings contain rich information for discriminative tasks, achieving 85\% to 95\% of state-of-the-art performance on standard benchmarks with only 68.4M trainable parameters. This performance dichotomy reveals a critical insight: frozen embedding effectiveness depends on alignment between pretraining objectives and downstream task requirements. When accounting for end-to-end computation including embedding extraction, FrEVL provides $2.3\times$ speedup with 52\% lower energy consumption, making it suitable for scenarios with pre-computable inputs or when deployment constraints outweigh marginal performance gains. Our evaluation provides practitioners with guidance on when frozen embedding approaches represent viable alternatives to full model deployment. We will release our complete implementation and evaluation framework to facilitate further research into efficient multi-modal understanding.
- Abstract(参考訳): 視覚言語モデルの展開は、かなりの計算要求に制約されているままである。
本稿では,凍結した事前学習した埋め込みが視覚言語を効果的に理解できるかどうかを探索するフレームワークである「textbf{FrEVL}」を提案する。
解析の結果, 凍結埋没には識別タスクの豊富な情報が含まれており, 68.4Mのトレーニング可能なパラメータしか持たない標準ベンチマークにおいて, 85\%から95%の最先端性能を実現していることがわかった。
凍結埋め込みの有効性は、事前学習目標と下流タスク要求との整合性に依存する。
FrEVLは、埋め込み抽出を含むエンドツーエンドの計算を考慮した場合、52\%の消費電力で2.3\times$ Speedupを提供する。
我々の評価は、凍結埋め込みアプローチがフルモデルデプロイメントの実行可能な代替手段である場合について、実践者に対してガイダンスを提供する。
我々は,効率的なマルチモーダル理解のさらなる研究を促進するために,完全な実装と評価フレームワークをリリースする。
関連論文リスト
- KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - EffiVLM-BENCH: A Comprehensive Benchmark for Evaluating Training-Free Acceleration in Large Vision-Language Models [19.344130974979503]
LVLM(Large Vision-Language Models)は大きな成功をおさめたが、その大きな計算要求は実際の展開を妨げている。
EffiVLM-Benchは絶対的な性能だけでなく、一般化や忠誠心も評価するための統一的なフレームワークである。
我々の実験と深部分析は、LVLMの加速のための最適戦略に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-05-31T09:10:43Z) - Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective [5.09611816929943]
大規模言語モデル(LLM)トレーニングのエスカレートスケールとコストは、下流タスク性能の正確な事前トレーニング予測を必要とする。
現在の予測手法には精度と信頼性が欠けている。
本稿では,下流性能予測のためのクラスタリングオンディフルティ(COD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-24T15:44:57Z) - Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation [73.454943870226]
言語モデルは、コンテキスト内学習能力に優れています。
本稿では,タスク非依存のパフォーマンス推定のためのより包括的な尺度であるFamiComを提案する。
論文 参考訳(メタデータ) (2024-06-17T06:14:55Z) - Adaptive Guidance: Training-free Acceleration of Conditional Diffusion
Models [44.58960475893552]
適応誘導 (AG) は計算自由誘導 (CFG) の効率的な変種である
AGはCFGの画質を25%低下させながら保存する。
LinearAG" はベースラインモデルから逸脱するコストでさらに安価な推論を提供する。
論文 参考訳(メタデータ) (2023-12-19T17:08:48Z) - Benchmarking and Enhancing Disentanglement in Concept-Residual Models [4.177318966048984]
概念ボトルネックモデル (CBM) は、まず意味論的に意味のある一連の特徴を予測する解釈可能なモデルである。
CBMの性能はエンジニアリングされた機能に依存しており、不完全な概念のセットに苦しむことがある。
本研究は,情報漏洩を解消するための3つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-30T21:07:26Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。