論文の概要: Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner
- arxiv url: http://arxiv.org/abs/2409.12963v1
- Date: Wed, 2 Oct 2024 01:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:36:59.701347
- Title: Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner
- Title(参考訳): ビデオLLMの補間:訓練不要マンナーにおけるLMMの長期化に向けて
- Authors: Yuzhang Shang, Bingxin Xu, Weitai Kang, Mu Cai, Yuheng Li, Zehao Wen, Zhen Dong, Kurt Keutzer, Yong Jae Lee, Yan Yan,
- Abstract要約: ビデオ-LLMはショートビデオの処理のために事前訓練されており、長いビデオコンテンツを理解するための幅広いアプリケーションを制限する。
固定ビデオエンコーダとアライメントプロジェクタの制約を回避するための代替ビデオトークン再構成手法を提案する。
- 参考スコア(独自算出の注目度): 53.671484175063995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in Large Language Models (LLMs) inspire various strategies for integrating video modalities. A key approach is Video-LLMs, which incorporate an optimizable interface linking sophisticated video encoders to LLMs. However, due to computation and data limitations, these Video-LLMs are typically pre-trained to process only short videos, limiting their broader application for understanding longer video content. Additionally, fine-tuning Video-LLMs to handle longer videos is cost-prohibitive. Consequently, it becomes essential to explore the interpolation of Video-LLMs under a completely training-free setting. In this paper, we first identify the primary challenges in interpolating Video-LLMs: (1) the video encoder and modality alignment projector are fixed, preventing the integration of additional frames into Video-LLMs, and (2) the LLM backbone is limited in its content length capabilities, which complicates the processing of an increased number of video tokens. To address these challenges, we propose a specific INTerPolation method for Video-LLMs (INTP-Video-LLMs). We introduce an alternative video token rearrangement technique that circumvents limitations imposed by the fixed video encoder and alignment projector. Furthermore, we introduce a training-free LLM context window extension method to enable Video-LLMs to understand a correspondingly increased number of visual tokens.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、ビデオモダリティを統合するための様々な戦略を刺激する。
主要なアプローチは、高度なビデオエンコーダをLLMにリンクする最適化可能なインターフェースであるVideo-LLMsである。
しかしながら、計算とデータ制限のため、これらのビデオ-LLMは通常、短いビデオのみを処理するために事前訓練され、長いビデオコンテンツを理解するためのより広範なアプリケーションに制限される。
さらに、長いビデオを扱うための微調整ビデオ-LLMはコストを抑える。
その結果,ビデオLLMの補間を,完全にトレーニング不要な環境で探究することが重要となる。
本稿では,(1)ビデオエンコーダとモードアライメントプロジェクタの固定化により,ビデオLLMへの追加フレームの統合を防止し,(2)LLMバックボーンのコンテント長が制限され,ビデオトークンの処理が複雑になる。
これらの課題に対処するため,ビデオLLM(INTP-Video-LLMs)のためのINTerPolation法を提案する。
固定ビデオエンコーダとアライメントプロジェクタの制約を回避するための代替ビデオトークン再構成手法を提案する。
さらに,ビデオLLMが対応する視覚トークン数の増加を理解できるように,学習不要なLLMコンテキストウィンドウ拡張手法を提案する。
関連論文リスト
- Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension [83.00346826110041]
Video-RAGはトレーニング不要で費用対効果の高いパイプラインで、視覚的に整列した補助テキストを使って、モダリティ間のアライメントを促進する。
72Bモデルを用いた場合,Gemini-1.5-Pro や GPT-4o などのプロプライエタリモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-20T07:44:34Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:59Z) - LLMs Meet Long Video: Advancing Long Video Question Answering with An Interactive Visual Adapter in LLMs [22.696090318037925]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video
Understanding [61.80870130860662]
Video-LLaMAは、ビデオ内の視覚的および聴覚的コンテンツの両方を理解する能力を備えた、大規模言語モデル(LLM)を強化するフレームワークである。
Video-LLaMAブートストラップは、凍結された事前訓練されたビジュアルおよびオーディオエンコーダと凍結されたLCMからのクロスモーダルトレーニングである。
Video-LLaMAは,映像コンテンツを知覚し,理解し,意味のある応答を生成する能力を示す。
論文 参考訳(メタデータ) (2023-06-05T13:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。