論文の概要: DrVideo: Document Retrieval Based Long Video Understanding
- arxiv url: http://arxiv.org/abs/2406.12846v1
- Date: Tue, 18 Jun 2024 17:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 17:39:34.840905
- Title: DrVideo: Document Retrieval Based Long Video Understanding
- Title(参考訳): DrVideo: ドキュメント検索によるロングビデオ理解
- Authors: Ziyu Ma, Chenhui Gou, Hengcan Shi, Bin Sun, Shutao Li, Hamid Rezatofighi, Jianfei Cai,
- Abstract要約: DrVideoは、長いビデオ理解のために設計されたドキュメント検索ベースのシステムである。
長いビデオをテキストベースの長いドキュメントに変換して、キーフレームを検索し、これらのフレームの情報を増やす。
その後、エージェントベースの反復ループを使用して、欠落した情報を継続的に検索し、関連するデータを拡大し、最終的な予測を提供する。
- 参考スコア(独自算出の注目度): 44.34473173458403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for long video understanding primarily focus on videos only lasting tens of seconds, with limited exploration of techniques for handling longer videos. The increased number of frames in longer videos presents two main challenges: difficulty in locating key information and performing long-range reasoning. Thus, we propose DrVideo, a document-retrieval-based system designed for long video understanding. Our key idea is to convert the long-video understanding problem into a long-document understanding task so as to effectively leverage the power of large language models. Specifically, DrVideo transforms a long video into a text-based long document to initially retrieve key frames and augment the information of these frames, which is used this as the system's starting point. It then employs an agent-based iterative loop to continuously search for missing information, augment relevant data, and provide final predictions in a chain-of-thought manner once sufficient question-related information is gathered. Extensive experiments on long video benchmarks confirm the effectiveness of our method. DrVideo outperforms existing state-of-the-art methods with +3.8 accuracy on EgoSchema benchmark (3 minutes), +17.9 in MovieChat-1K break mode, +38.0 in MovieChat-1K global mode (10 minutes), and +30.2 on the LLama-Vid QA dataset (over 60 minutes).
- Abstract(参考訳): ビデオの長い理解のための既存の方法は、主に数秒間しかビデオに焦点を合わせておらず、長いビデオを扱うための技術は限られている。
長編ビデオにおけるフレーム数の増加は、キー情報を見つけることの難しさと、長距離推論の実行の2つの大きな課題を示している。
そこで本稿では,長いビデオ理解を目的とした文書検索システムであるDrVideoを提案する。
我々のキーとなる考え方は、長いビデオ理解問題を文書理解タスクに変換して、大きな言語モデルのパワーを効果的に活用することである。
具体的には、DrVideoは長いビデオをテキストベースの長文に変換することで、まずはキーフレームを検索し、これらのフレームの情報を増やす。
その後、エージェントベースの反復ループを使用して、欠落した情報を継続的に検索し、関連するデータを拡大し、十分な質問関連情報が収集されたら、チェーン・オブ・シントな方法で最終的な予測を行う。
長大なビデオベンチマーク実験により,本手法の有効性が確認された。
DrVideoは、EgoSchemaベンチマーク(3分)で+3.8、MovieChat-1Kブレークモードで+17.9、MovieChat-1Kグローバルモード(10分)で+38.0、LLama-Vid QAデータセット(60分以上)で+30.2で既存の最先端の手法より優れている。
関連論文リスト
- Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。
LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文 参考訳(メタデータ) (2024-02-19T11:59:14Z) - Beyond the Frame: Single and mutilple video summarization method with
user-defined length [4.424739166856966]
ビデオの要約は難しいが重要な作業であり、さらなる研究と開発にかなりの可能性がある。
本稿では,NLP技術とビデオ処理技術を組み合わせて,長い動画を比較的短いビデオに変換する。
論文 参考訳(メタデータ) (2023-12-23T04:32:07Z) - MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie
Understanding [69.04413943858584]
長文映画の質問応答データセットであるMoVQAを紹介する。
マルチモーダルシステムの多様な認知能力を評価するためのベンチマークも行った。
論文 参考訳(メタデータ) (2023-12-08T03:33:38Z) - Query-aware Long Video Localization and Relation Discrimination for Deep
Video Understanding [15.697251303126874]
Deep Video Understanding (DVU) Challengeは、マルチモーダル抽出、融合、分析の境界を推し進めることを目的としている。
本稿では,画像言語事前学習モデルを利用して,長時間の動画のローカライゼーションと関係の識別を行うクエリアウェア手法を提案する。
本手法は,映画レベルの問合せの2つのグループにおいて,第1位と第4位を達成した。
論文 参考訳(メタデータ) (2023-10-19T13:26:02Z) - ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。
我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文 参考訳(メタデータ) (2022-04-06T14:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。