論文の概要: LongVLM: Efficient Long Video Understanding via Large Language Models
- arxiv url: http://arxiv.org/abs/2404.03384v1
- Date: Thu, 4 Apr 2024 11:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 15:01:15.947771
- Title: LongVLM: Efficient Long Video Understanding via Large Language Models
- Title(参考訳): LongVLM: 大規模言語モデルによる効率的なロングビデオ理解
- Authors: Yuetian Weng, Mingfei Han, Haoyu He, Xiaojun Chang, Bohan Zhuang,
- Abstract要約: LongVLMは、長いビデオ理解のための強力なビデオLLMである。
長編ビデオを短期セグメントに分解し、階層的トークンモジュールを介して各ローカルセグメントのローカル特徴を符号化する。
グローバルなセマンティクスを各ローカル機能に統合し、コンテキスト理解を強化する。
- 参考スコア(独自算出の注目度): 55.813206751150716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empowered by Large Language Models (LLMs), recent advancements in VideoLLMs have driven progress in various video understanding tasks. These models encode video representations through pooling or query aggregation over a vast number of visual tokens, making computational and memory costs affordable. Despite successfully providing an overall comprehension of video content, existing VideoLLMs still face challenges in achieving detailed understanding in videos due to overlooking local information in long-term videos. To tackle this challenge, we introduce LongVLM, a straightforward yet powerful VideoLLM for long video understanding, building upon the observation that long videos often consist of sequential key events, complex actions, and camera movements. Our approach proposes to decompose long videos into multiple short-term segments and encode local features for each local segment via a hierarchical token merging module. These features are concatenated in temporal order to maintain the storyline across sequential short-term segments. Additionally, we propose to integrate global semantics into each local feature to enhance context understanding. In this way, we encode video representations that incorporate both local and global information, enabling the LLM to generate comprehensive responses for long-term videos. Experimental results on the VideoChatGPT benchmark and zero-shot video question-answering datasets demonstrate the superior capabilities of our model over the previous state-of-the-art methods. Qualitative examples demonstrate that our model produces more precise responses for long videos understanding. Code is available at \url{https://github.com/ziplab/LongVLM}.
- Abstract(参考訳): 大規模言語モデル (LLMs) を取り入れた最近のビデオLLMの進歩は、様々なビデオ理解タスクの進歩を促している。
これらのモデルは、膨大な数のビジュアルトークンにプールやクエリアグリゲーションを通じてビデオ表現をエンコードし、計算とメモリのコストを安くする。
ビデオコンテンツの全体的な理解を成功させたにもかかわらず、既存のビデオLLMは、長期的なビデオのローカル情報を見渡すことによって、ビデオの詳細な理解を達成する上で、依然として課題に直面している。
この課題に対処するために、LongVLMは、長いビデオを理解するための単純だが強力なビデオLLMであり、長いビデオは、しばしばシーケンシャルなキーイベント、複雑なアクション、カメラの動きで構成されている、という観測に基づいて構築されている。
提案手法では,長い動画を複数の短期セグメントに分割し,階層的なトークンマージモジュールを通じて各局所セグメントの局所的特徴を符号化する。
これらの特徴は、逐次的な短期セグメント間のストーリーラインを維持するために、時間順に連結される。
さらに,グローバルなセマンティクスを各ローカル機能に統合し,コンテキスト理解を強化することを提案する。
このようにして、ローカル情報とグローバル情報の両方を包含した映像表現を符号化し、LLMが長期ビデオに対して包括的な応答を生成できるようにする。
VideoChatGPTベンチマークとゼロショットビデオ質問応答データセットによる実験結果から,従来の最先端手法に比べて,我々のモデルが優れていることを示す。
定性的な例は、我々のモデルが長いビデオ理解のためにより正確な応答を生成することを示している。
コードは \url{https://github.com/ziplab/LongVLM} で公開されている。
関連論文リスト
- MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Understanding Long Videos in One Multimodal Language Model Pass [44.78900245769057]
LLM(Large Language Models)は、世界の知識を強く認識することで知られる。
自己回帰 LLM における高速な推論を実現する手法である Likelihood Selection を提案する。
得られたMultimodal Video Understandingフレームワークは、長ビデオおよびきめ細かいアクション認識ベンチマークにおける最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-25T17:59:09Z) - LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。
LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文 参考訳(メタデータ) (2024-02-19T11:59:14Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Retrieval-based Video Language Model for Efficient Long Video Question
Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。
実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。