論文の概要: LongVLM: Efficient Long Video Understanding via Large Language Models
- arxiv url: http://arxiv.org/abs/2404.03384v3
- Date: Sat, 20 Jul 2024 07:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 02:01:16.658873
- Title: LongVLM: Efficient Long Video Understanding via Large Language Models
- Title(参考訳): LongVLM: 大規模言語モデルによる効率的なロングビデオ理解
- Authors: Yuetian Weng, Mingfei Han, Haoyu He, Xiaojun Chang, Bohan Zhuang,
- Abstract要約: LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
- 参考スコア(独自算出の注目度): 55.813206751150716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empowered by Large Language Models (LLMs), recent advancements in Video-based LLMs (VideoLLMs) have driven progress in various video understanding tasks. These models encode video representations through pooling or query aggregation over a vast number of visual tokens, making computational and memory costs affordable. Despite successfully providing an overall comprehension of video content, existing VideoLLMs still face challenges in achieving detailed understanding due to overlooking local information in long-term videos. To tackle this challenge, we introduce LongVLM, a simple yet powerful VideoLLM for long video understanding, building upon the observation that long videos often consist of sequential key events, complex actions, and camera movements. Our approach proposes to decompose long videos into multiple short-term segments and encode local features for each segment via a hierarchical token merging module. These features are concatenated in temporal order to maintain the storyline across sequential short-term segments. Additionally, we propose to integrate global semantics into each local feature to enhance context understanding. In this way, we encode video representations that incorporate both local and global information, enabling the LLM to generate comprehensive responses for long-term videos. Experimental results on the VideoChatGPT benchmark and zero-shot video question-answering datasets demonstrate the superior capabilities of our model over the previous state-of-the-art methods. Qualitative examples show that our model produces more precise responses for long video understanding. Code is available at https://github.com/ziplab/LongVLM.
- Abstract(参考訳): ビデオLLM(Large Language Models, LLM)を応用し, ビデオLLM(ビデオLLM)の最近の進歩により, 映像理解タスクの進歩が加速した。
これらのモデルは、膨大な数のビジュアルトークンにプールやクエリアグリゲーションを通じてビデオ表現をエンコードし、計算とメモリのコストを安くする。
ビデオコンテンツの全体的な理解を成功させたにもかかわらず、既存のビデオLLMは、長期的なビデオでローカル情報を見渡すことによる詳細な理解の達成において、依然として課題に直面している。
この課題に対処するために、LongVLMは、ビデオ理解のためのシンプルだが強力なビデオLLMであり、長いビデオは、しばしばシーケンシャルなキーイベント、複雑なアクション、カメラの動きで構成されている、という観測に基づいて構築されている。
提案手法では,長い動画を複数の短期セグメントに分割し,階層的なトークンマージモジュールを通じて各セグメントの局所的特徴を符号化する。
これらの特徴は、逐次的な短期セグメント間のストーリーラインを維持するために、時間順に連結される。
さらに,グローバルなセマンティクスを各ローカル機能に統合し,コンテキスト理解を強化することを提案する。
このようにして、ローカル情報とグローバル情報の両方を包含した映像表現を符号化し、LLMが長期ビデオに対して包括的な応答を生成できるようにする。
VideoChatGPTベンチマークとゼロショットビデオ質問応答データセットによる実験結果から,従来の最先端手法に比べて,我々のモデルが優れていることを示す。
定性的な例は、我々のモデルが長いビデオ理解のためにより正確な応答を生成することを示している。
コードはhttps://github.com/ziplab/LongVLMで公開されている。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Enhancing Long Video Understanding via Hierarchical Event-Based Memory [9.800516656566774]
本稿では,長いビデオの理解を深めるため,階層型イベントベースメモリ拡張LDM(HEM-LLM)を提案する。
まず,複数のイベントを長いビデオ内に分割する適応シーケンスセグメンテーション方式を設計する。
第2に、現在のイベントをモデル化しながら、ビデオ内の長期的相互依存関係を強化するために、前回のイベントに関する情報を圧縮し、注入する。
論文 参考訳(メタデータ) (2024-09-10T07:53:10Z) - SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。
我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文 参考訳(メタデータ) (2024-08-03T05:35:13Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - LVBench: An Extreme Long Video Understanding Benchmark [38.839913137854104]
LVBenchは長いビデオの理解に特化して設計されたベンチマークである。
我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
論文 参考訳(メタデータ) (2024-06-12T09:36:52Z) - Encoding and Controlling Global Semantics for Long-form Video Question Answering [40.129800076300434]
我々は、ビデオのグローバルなセマンティクスを効率的に統合するために、状態空間層(SSL)をマルチモーダルトランスフォーマーに導入する。
私たちのSSLには、グローバルなセマンティクスから視覚表現へのフローを制御可能にするゲーティングユニットが含まれています。
長大なビデオQA能力を評価するため,Ego-QAとMAD-QAの2つの新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-05-30T06:10:10Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。