Fugu-MT 論文翻訳(概要): DrVideo: Document Retrieval Based Long Video Understanding

論文の概要: DrVideo: Document Retrieval Based Long Video Understanding

arxiv url: http://arxiv.org/abs/2406.12846v1
Date: Tue, 18 Jun 2024 17:59:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 17:39:34.840905
Title: DrVideo: Document Retrieval Based Long Video Understanding
Title（参考訳）: DrVideo: ドキュメント検索によるロングビデオ理解
Authors: Ziyu Ma, Chenhui Gou, Hengcan Shi, Bin Sun, Shutao Li, Hamid Rezatofighi, Jianfei Cai,
Abstract要約: DrVideoは、長いビデオ理解のために設計されたドキュメント検索ベースのシステムである。長いビデオをテキストベースの長いドキュメントに変換して、キーフレームを検索し、これらのフレームの情報を増やす。その後、エージェントベースの反復ループを使用して、欠落した情報を継続的に検索し、関連するデータを拡大し、最終的な予測を提供する。
参考スコア（独自算出の注目度）: 44.34473173458403
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing methods for long video understanding primarily focus on videos only lasting tens of seconds, with limited exploration of techniques for handling longer videos. The increased number of frames in longer videos presents two main challenges: difficulty in locating key information and performing long-range reasoning. Thus, we propose DrVideo, a document-retrieval-based system designed for long video understanding. Our key idea is to convert the long-video understanding problem into a long-document understanding task so as to effectively leverage the power of large language models. Specifically, DrVideo transforms a long video into a text-based long document to initially retrieve key frames and augment the information of these frames, which is used this as the system's starting point. It then employs an agent-based iterative loop to continuously search for missing information, augment relevant data, and provide final predictions in a chain-of-thought manner once sufficient question-related information is gathered. Extensive experiments on long video benchmarks confirm the effectiveness of our method. DrVideo outperforms existing state-of-the-art methods with +3.8 accuracy on EgoSchema benchmark (3 minutes), +17.9 in MovieChat-1K break mode, +38.0 in MovieChat-1K global mode (10 minutes), and +30.2 on the LLama-Vid QA dataset (over 60 minutes).
Abstract（参考訳）: ビデオの長い理解のための既存の方法は、主に数秒間しかビデオに焦点を合わせておらず、長いビデオを扱うための技術は限られている。長編ビデオにおけるフレーム数の増加は、キー情報を見つけることの難しさと、長距離推論の実行の2つの大きな課題を示している。そこで本稿では,長いビデオ理解を目的とした文書検索システムであるDrVideoを提案する。我々のキーとなる考え方は、長いビデオ理解問題を文書理解タスクに変換して、大きな言語モデルのパワーを効果的に活用することである。具体的には、DrVideoは長いビデオをテキストベースの長文に変換することで、まずはキーフレームを検索し、これらのフレームの情報を増やす。その後、エージェントベースの反復ループを使用して、欠落した情報を継続的に検索し、関連するデータを拡大し、十分な質問関連情報が収集されたら、チェーン・オブ・シントな方法で最終的な予測を行う。長大なビデオベンチマーク実験により,本手法の有効性が確認された。 DrVideoは、EgoSchemaベンチマーク(3分)で+3.8、MovieChat-1Kブレークモードで+17.9、MovieChat-1Kグローバルモード(10分)で+38.0、LLama-Vid QAデータセット(60分以上)で+30.2で既存の最先端の手法より優れている。

関連論文リスト

Unleashing Hour-Scale Video Training for Long Video-Language Understanding [61.717205915329664]
本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T17:59:04Z)
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [63.82450803014141]
長時間の映像理解は時間空間の複雑さによって大きな課題を呈する。セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discoveryエージェントを提案する。我々のDVDエージェントはSOTA性能を達成し,LVBenchデータセットの先行処理をはるかに上回っている。
論文参考訳（メタデータ） (2025-05-23T16:37:36Z)
MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。 MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文参考訳（メタデータ） (2025-02-18T05:50:23Z)
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。 HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文参考訳（メタデータ） (2025-01-03T05:32:37Z)
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文参考訳（メタデータ） (2024-12-31T18:56:46Z)
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-12-31T18:01:23Z)
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。 87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文参考訳（メタデータ） (2024-11-25T08:04:47Z)
Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文参考訳（メタデータ） (2024-07-17T15:59:32Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
LVBench: An Extreme Long Video Understanding Benchmark [38.839913137854104]
LVBenchは長いビデオの理解に特化して設計されたベンチマークである。我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
論文参考訳（メタデータ） (2024-06-12T09:36:52Z)
VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos [67.78336281317347]
ビデオデータの冗長性が高いため、ビデオの長文理解は難しい課題となっている。我々は,クエリ適応的かつ階層的なビデオ表現を構築する,トレーニングフリーのフレームワークであるVideoTreeを提案する。実験の結果,本フレームワークは従来の手法と比較して,推論精度と効率性を両立していることがわかった。
論文参考訳（メタデータ） (2024-05-29T15:49:09Z)
Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。提案手法は,全タスクの絶対精度を3～6%向上させる。意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文参考訳（メタデータ） (2024-04-05T18:33:04Z)
LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文参考訳（メタデータ） (2024-04-04T11:33:29Z)
LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。 LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文参考訳（メタデータ） (2024-02-19T11:59:14Z)
Query-aware Long Video Localization and Relation Discrimination for Deep Video Understanding [15.697251303126874]
Deep Video Understanding (DVU) Challengeは、マルチモーダル抽出、融合、分析の境界を推し進めることを目的としている。本稿では,画像言語事前学習モデルを利用して,長時間の動画のローカライゼーションと関係の識別を行うクエリアウェア手法を提案する。本手法は,映画レベルの問合せの2つのグループにおいて,第1位と第4位を達成した。
論文参考訳（メタデータ） (2023-10-19T13:26:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。