論文の概要: Breaking the Encoder Barrier for Seamless Video-Language Understanding
- arxiv url: http://arxiv.org/abs/2503.18422v1
- Date: Mon, 24 Mar 2025 08:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:03.029483
- Title: Breaking the Encoder Barrier for Seamless Video-Language Understanding
- Title(参考訳): シームレスビデオ言語理解のためのエンコーダバリアの破壊
- Authors: Handong Li, Yiyuan Zhang, Longteng Guo, Xiangyu Yue, Jing Liu,
- Abstract要約: 視覚エンコーダに依存しないニュアンス付きビデオ言語インタラクションを直接モデル化するエンコーダフリーLLMであるELVAを提案する。
公開されているビデオテキストペアはわずか700万で、ELVAはエンコーダベースのVideo-LLMと同等のパフォーマンスを実現し、FLOPを最大95%削減し、推論遅延を92%削減した。
- 参考スコア(独自算出の注目度): 22.749949819082484
- License:
- Abstract: Most Video-Large Language Models (Video-LLMs) adopt an encoder-decoder framework, where a vision encoder extracts frame-wise features for processing by a language model. However, this approach incurs high computational costs, introduces resolution biases, and struggles to capture fine-grained multimodal interactions. To overcome these limitations, we propose ELVA, an encoder-free Video-LLM that directly models nuanced video-language interactions without relying on a vision encoder. ELVA employs token merging to construct a bottom-up hierarchical representation and incorporates a video guidance supervisor for direct spatiotemporal representation learning. Additionally, a hybrid-resolution mechanism strategically integrates high- and low-resolution frames as inputs to achieve an optimal balance between performance and efficiency. With only 7M publicly available video-text pairs, ELVA achieves performance on par with encoder-based Video-LLMs while reducing FLOPs by up to 95\% and inference latency by 92\%, offering a scalable and efficient solution for real-time video understanding.
- Abstract(参考訳): ほとんどのビデオラージ言語モデル (Video-LLMs) はエンコーダ・デコーダ・フレームワークを採用しており、視覚エンコーダは言語モデルによって処理するためのフレームワイズ機能を抽出する。
しかし、このアプローチは高い計算コストを発生させ、解像度バイアスを導入し、きめ細かいマルチモーダル相互作用を捉えるのに苦労する。
これらの制限を克服するため,視覚エンコーダに依存しないニュアンス付きビデオ言語インタラクションを直接モデル化する,エンコーダフリーなビデオ-LLMであるELVAを提案する。
ELVAはトークンマージを用いてボトムアップ階層表現を構築し、直接時空間表現学習のためのビデオガイダンススーパーバイザを組み込む。
さらに、ハイブリットレゾリューション機構は、高解像度フレームと低解像度フレームを戦略的に入力として統合し、性能と効率の最適なバランスを実現する。
公開されているビデオテキストペアはわずか700万であるELVAは、エンコーダベースのVideo-LLMと同等のパフォーマンスを実現し、FLOPを最大95%、推論遅延を最大92パーセント削減し、リアルタイムビデオ理解のためのスケーラブルで効率的なソリューションを提供する。
関連論文リスト
- EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。
我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。
統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:58Z) - Return of the Encoder: Maximizing Parameter Efficiency for SLMs [4.246337121596753]
encoder-decoderアーキテクチャは、エッジデバイスのデコーダのみのモデルと比較して、47%のレイテンシと4.7倍のスループットを実現している。
本稿では,エンコーダ・デコーダモデルを用いた,大規模でスケーラブルなデコーダのみの教師の能力を活用した新しい知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-27T18:06:36Z) - Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models [26.866184981409607]
現在のビデオモデルは、通常、重い画像エンコーダ(300M-1.1Bパラメータ)またはビデオエンコーダ(1B-1.4Bパラメータ)に依存している。
本稿では,ビデオ入力を直接処理する時空間アライメントブロック(STAB)を提案する。
本モデルでは,標準ベンチマークによるオープンエンドビデオ質問応答に対して,エンコーダに基づくアプローチに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:59:56Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - LADDER: An Efficient Framework for Video Frame Interpolation [12.039193291203492]
ビデオフレーム補間(VFI)は、スローモーション生成、フレームレート変換、ビデオフレーム復元など、様々な応用において重要な技術である。
本稿では,効率と品質のバランスをとることを目的とした,効率的なビデオフレームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T06:47:17Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。