論文の概要: Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM
- arxiv url: http://arxiv.org/abs/2412.09530v1
- Date: Thu, 12 Dec 2024 18:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:15.381227
- Title: Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM
- Title(参考訳): Dynamic-VLM:ビデオLLMのためのシンプルな動的ビジュアルトーケン圧縮
- Authors: Han Wang, Yuxiang Nie, Yongjie Ye, Deng GuanYu, Yanjie Wang, Shuai Li, Haiyang Yu, Jinghui Lu, Can Huang,
- Abstract要約: プロプライエタリなモデルから生成された大規模合成データセットを紹介する。
また、計算効率と性能のバランスをとる動的ビジュアルトークン圧縮アーキテクチャについても検討する。
提案手法は,様々な映像タスクにまたがって最先端の成果を達成し,印象的な一般化を示す。
- 参考スコア(独自算出の注目度): 28.64108439552772
- License:
- Abstract: The application of Large Vision-Language Models (LVLMs) for analyzing images and videos is an exciting and rapidly evolving field. In recent years, we've seen significant growth in high-quality image-text datasets for fine-tuning image understanding, but there is still a lack of comparable datasets for videos. Additionally, many VideoLLMs are extensions of single-image VLMs, which may not efficiently handle the complexities of longer videos. In this study, we introduce a large-scale synthetic dataset created from proprietary models, using carefully designed prompts to tackle a wide range of questions. We also explore a dynamic visual token compression architecture that strikes a balance between computational efficiency and performance. Our proposed \model{} achieves state-of-the-art results across various video tasks and shows impressive generalization, setting new baselines in multi-image understanding. Notably, \model{} delivers an absolute improvement of 2.7\% over LLaVA-OneVision on VideoMME and 10.7\% on MuirBench. Codes are available at https://github.com/Hon-Wong/ByteVideoLLM
- Abstract(参考訳): 画像やビデオを解析するためのLVLM(Large Vision-Language Models)の応用は、エキサイティングで急速に進化している分野である。
近年では、微調整によるイメージ理解のための高品質な画像テキストデータセットが大幅に増加していますが、ビデオに匹敵するデータセットはいまだにありません。
さらに、多くのVideoLLMはシングルイメージのVLMの拡張であり、長いビデオの複雑さを効率的に扱えない可能性がある。
本研究では,プロプライエタリなモデルを用いた大規模合成データセットを提案する。
また、計算効率と性能のバランスをとる動的ビジュアルトークン圧縮アーキテクチャについても検討する。
提案した \model{} は,様々なビデオタスクにおける最先端の成果を達成し,マルチイメージ理解における新たなベースラインを設定した,印象的な一般化を示す。
特に、 \model{} は VideoMME では LLaVA-OneVision に対して 2.7 %、MuirBench では 10.7 % という絶対的な改善を実現している。
コードはhttps://github.com/Hon-Wong/ByteVideoLLMで入手できる。
関連論文リスト
- Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3379755761583]
Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。
セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。
本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
論文 参考訳(メタデータ) (2025-01-07T18:58:54Z) - TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution [90.31313348540607]
画像,ビデオ,3Dシーンの空間的時間的理解のための統合マルチモーダルアーキテクチャであるOryxを提案する。
Oryxは任意の空間サイズと時間長の視覚入力をシームレスかつ効率的に処理するオンデマンドソリューションを提供する。
デザイン機能により、Oryxは低解像度で高圧縮でビデオのような非常に長い視覚的コンテキストに対応できる。
論文 参考訳(メタデータ) (2024-09-19T17:59:51Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:59Z) - MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens [36.02433030551474]
MiniGPT4-Videoは、ビデオ理解に特化した多モード大言語モデル(LLM)である。
MiniGPT4-videoは、視覚的コンテンツだけでなく、テキストによる会話も含んでいるため、モデルが視覚的コンポーネントとテキストコンポーネントの両方を含むクエリに効果的に答えることができる。
論文 参考訳(メタデータ) (2024-04-04T12:46:01Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Video-LLaVA: Learning United Visual Representation by Alignment Before Projection [27.04277811443469]
Video-LLaVAは、画像とビデオの混合データセットから学習し、相互に強化する。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-16T10:59:44Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。