論文の概要: VideoChat-A1: Thinking with Long Videos by Chain-of-Shot Reasoning
- arxiv url: http://arxiv.org/abs/2506.06097v1
- Date: Fri, 06 Jun 2025 13:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.502437
- Title: VideoChat-A1: Thinking with Long Videos by Chain-of-Shot Reasoning
- Title(参考訳): VideoChat-A1:Chain-of-Shot Reasoningで長いビデオを考える
- Authors: Zikang Wang, Boyu Chen, Zhengrong Yue, Yi Wang, Yu Qiao, Limin Wang, Yali Wang,
- Abstract要約: VideoChat-A1は、新しい長編ビデオエージェントパラダイムである。
長いビデオでは、明確な連鎖推論パラダイムを通じて深く考えることができる。
ショットチェーンに沿ったマルチモーダル推論によって、VideoChat-A1はステップバイステップの人間の思考プロセスを効果的に模倣することができる。
- 参考スコア(独自算出の注目度): 40.071064407275564
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The recent advance in video understanding has been driven by multimodal large language models (MLLMs). But these MLLMs are good at analyzing short videos, while suffering from difficulties in understanding videos with a longer context. To address this difficulty, several agent paradigms have recently been proposed, using MLLMs as agents for retrieving extra contextual knowledge in a long video. However, most existing agents ignore the key fact that a long video is composed with multiple shots, i.e., to answer the user question from a long video, it is critical to deeply understand its relevant shots like human. Without such insight, these agents often mistakenly find redundant even noisy temporal context, restricting their capacity for long video understanding. To fill this gap, we propose VideoChat-A1, a novel long video agent paradigm. Different from the previous works, our VideoChat-A1 can deeply think with long videos, via a distinct chain-of-shot reasoning paradigm. More specifically, it can progressively select the relevant shots of user question, and look into these shots in a coarse-to-fine partition. By multi-modal reasoning along the shot chain, VideoChat-A1 can effectively mimic step-by-step human thinking process, allowing to interactively discover preferable temporal context for thoughtful understanding in long videos. Extensive experiments show that, our VideoChat-A1 achieves the state-of-the-art performance on the mainstream long video QA benchmarks, e.g., it achieves 77.0 on VideoMME and 70.1 on EgoSchema, outperforming its strong baselines (e.g., Intern2.5VL-8B and InternVideo2.5-8B), by up to 10.8\% and 6.2\%. Compared to leading close-source GPT-4o and Gemini 1.5 Pro, VideoChat-A1 offers competitive accuracy, but with 7\% input frames and 12\% inference time on average.
- Abstract(参考訳): ビデオ理解の最近の進歩は、マルチモーダル大言語モデル(MLLM)によって推進されている。
しかし、これらのMLLMは短いビデオを分析するのに長けており、長いコンテキストで動画を理解するのに苦労している。
この課題に対処するために、MLLMを長いビデオで余分な文脈的知識を取得するためのエージェントとして利用するいくつかのエージェントパラダイムが最近提案されている。
しかし、既存のエージェントのほとんどは、長いビデオが複数のショットで構成されている、すなわち、長いビデオからユーザー質問に答えるためには、人間のような関連するショットを深く理解することが重要であるという重要な事実を無視している。
このような洞察がなければ、これらのエージェントは、長いビデオ理解の能力を制限するために、過度にノイズのある時間的コンテキストを見つけることがしばしばある。
このギャップを埋めるために,新しい長編ビデオエージェントパラダイムであるVideoChat-A1を提案する。
これまでの作品と異なり、われわれのVideoChat-A1は長いビデオで深く考えることができる。
より具体的には、ユーザーの質問の関連ショットを段階的に選択し、これらのショットを粗いパーティションで調べることができる。
ショットチェーンに沿ったマルチモーダル推論により、VideoChat-A1は、ステップバイステップの人間の思考プロセスを効果的に模倣することができ、長いビデオにおける思考的理解のための好ましい時間的コンテキストを対話的に発見することができる。
大規模な実験により、我々のVideoChat-A1は、主流の長ビデオQAベンチマーク(例: VideoMMEで77.0、EgoSchemaで70.1、その強力なベースライン(例: Intern2.5VL-8B、InternVideo2.5-8B)を最大10.8\%、最大6.2\%で達成した。
主要なオープンソース GPT-4o や Gemini 1.5 Pro と比較して、VideoChat-A1 は競合する精度を提供するが、平均して 7 % の入力フレームと 12 % の推論時間を持つ。
関連論文リスト
- HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [20.184894298462652]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - InfiniBench: A Comprehensive Benchmark for Large Multimodal Models in Very Long Video Understanding [31.147208579511247]
InfiniBenchは、数分間から数時間の長いビデオを理解するためのベンチマークである。
1) ビデオの長さは, 平均52.59分, 2) 最大数の質問対108.2K, 3) 異なる9つのスキルを検査し, 複数選択の質問とオープンエンドの質問の両方を含む質問の多様性 4) 映像ソースは映画やテレビ番組から来る人間中心である。
GPT-4oやGemini 1.5 Flashのような主要なAIモデルでさえ、長時間のビデオ理解において高いパフォーマンスを達成する上で課題に直面している。
論文 参考訳(メタデータ) (2024-06-28T12:35:01Z) - DrVideo: Document Retrieval Based Long Video Understanding [44.34473173458403]
DrVideoは、長いビデオ理解のために設計されたドキュメント検索ベースのシステムである。
まず、長いビデオを粗いテキストベースの長文に変換して、キーフレームを検索し、拡張されたキーフレーム情報で文書を更新する。
その後、エージェントベースの反復ループを使用して、欠落した情報を継続的に検索し、十分な質問関連情報が収集されるまで文書を増補する。
論文 参考訳(メタデータ) (2024-06-18T17:59:03Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding [28.316828641898375]
VideoAgent: 1)は、一般的な時間的イベント記述と、ビデオのオブジェクト中心のトラッキング状態の両方を格納する構造化メモリを構築する。
2) 入力タスククエリが与えられた場合,ビデオセグメントのローカライゼーションやオブジェクトメモリクエリなどのツールと,他の視覚基盤モデルを用いて対話的にタスクを解く。
論文 参考訳(メタデータ) (2024-03-18T05:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。