論文の概要: DrVideo: Document Retrieval Based Long Video Understanding
- arxiv url: http://arxiv.org/abs/2406.12846v2
- Date: Sun, 24 Nov 2024 04:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:15:32.221124
- Title: DrVideo: Document Retrieval Based Long Video Understanding
- Title(参考訳): DrVideo: ドキュメント検索によるロングビデオ理解
- Authors: Ziyu Ma, Chenhui Gou, Hengcan Shi, Bin Sun, Shutao Li, Hamid Rezatofighi, Jianfei Cai,
- Abstract要約: DrVideoは、長いビデオ理解のために設計されたドキュメント検索ベースのシステムである。
まず、長いビデオを粗いテキストベースの長文に変換して、キーフレームを検索し、拡張されたキーフレーム情報で文書を更新する。
その後、エージェントベースの反復ループを使用して、欠落した情報を継続的に検索し、十分な質問関連情報が収集されるまで文書を増補する。
- 参考スコア(独自算出の注目度): 44.34473173458403
- License:
- Abstract: Most of the existing methods for video understanding primarily focus on videos only lasting tens of seconds, with limited exploration of techniques for handling long videos. The increased number of frames in long videos poses two main challenges: difficulty in locating key information and performing long-range reasoning. Thus, we propose DrVideo, a document-retrieval-based system designed for long video understanding. Our key idea is to convert the long-video understanding problem into a long-document understanding task so as to effectively leverage the power of large language models. Specifically, DrVideo first transforms a long video into a coarse text-based long document to initially retrieve key frames and then updates the documents with the augmented key frame information. It then employs an agent-based iterative loop to continuously search for missing information and augment the document until sufficient question-related information is gathered for making the final predictions in a chain-of-thought manner. Extensive experiments on long video benchmarks confirm the effectiveness of our method. DrVideo significantly outperforms existing LLM-based state-of-the-art methods on EgoSchema benchmark (3 minutes), MovieChat-1K benchmark (10 minutes), and the long split of Video-MME benchmark (average of 44 minutes).
- Abstract(参考訳): 既存のビデオ理解手法のほとんどは、長大なビデオを扱う技術について限定的に探究しながら、数秒間しかビデオに焦点を合わせている。
長いビデオのフレーム数の増加は、キー情報を見つけるのが難しいことと、長距離推論を行うのに2つの大きな課題をもたらす。
そこで本稿では,長いビデオ理解を目的とした文書検索システムであるDrVideoを提案する。
我々のキーとなる考え方は、長いビデオ理解問題を文書理解タスクに変換して、大きな言語モデルのパワーを効果的に活用することである。
具体的には、DrVideoは、まず長いビデオを粗いテキストベースの長いドキュメントに変換して、まずキーフレームを検索し、次に拡張されたキーフレーム情報でドキュメントを更新する。
その後、エージェントベースの反復ループを使用して、欠落した情報を継続的に検索し、最終予測を連鎖的に行うのに十分な質問関連情報が収集されるまで文書を増補する。
長大なビデオベンチマーク実験により,本手法の有効性が確認された。
DrVideoは、EgoSchemaベンチマーク(3分)、MovieChat-1Kベンチマーク(10分)、Video-MMEベンチマーク(平均44分)において、既存のLLMベースの最先端メソッドよりも大幅に優れています。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - LVBench: An Extreme Long Video Understanding Benchmark [38.839913137854104]
LVBenchは長いビデオの理解に特化して設計されたベンチマークである。
我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
論文 参考訳(メタデータ) (2024-06-12T09:36:52Z) - VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos [67.78336281317347]
ビデオデータの冗長性が高いため、ビデオの長文理解は難しい課題となっている。
我々は,クエリ適応的かつ階層的なビデオ表現を構築する,トレーニングフリーのフレームワークであるVideoTreeを提案する。
実験の結果,本フレームワークは従来の手法と比較して,推論精度と効率性を両立していることがわかった。
論文 参考訳(メタデータ) (2024-05-29T15:49:09Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。
LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文 参考訳(メタデータ) (2024-02-19T11:59:14Z) - Query-aware Long Video Localization and Relation Discrimination for Deep
Video Understanding [15.697251303126874]
Deep Video Understanding (DVU) Challengeは、マルチモーダル抽出、融合、分析の境界を推し進めることを目的としている。
本稿では,画像言語事前学習モデルを利用して,長時間の動画のローカライゼーションと関係の識別を行うクエリアウェア手法を提案する。
本手法は,映画レベルの問合せの2つのグループにおいて,第1位と第4位を達成した。
論文 参考訳(メタデータ) (2023-10-19T13:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。