論文の概要: MR. Video: "MapReduce" is the Principle for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2504.16082v1
- Date: Tue, 22 Apr 2025 17:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 17:08:30.629841
- Title: MR. Video: "MapReduce" is the Principle for Long Video Understanding
- Title(参考訳): MR.ビデオ:「MapReduce」は長いビデオ理解の原則
- Authors: Ziqi Pang, Yu-Xiong Wang,
- Abstract要約: MR.ビデオは、エージェント的な長いビデオ理解フレームワークである。
文脈長に制限されることなく、詳細な短い映像知覚を行う。
LVBenchでは10%以上の精度向上を実現している。
- 参考スコア(独自算出の注目度): 27.9561679446938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose MR. Video, an agentic long video understanding framework that demonstrates the simple yet effective MapReduce principle for processing long videos: (1) Map: independently and densely perceiving short video clips, and (2) Reduce: jointly aggregating information from all clips. Compared with sequence-to-sequence vision-language models (VLMs), MR. Video performs detailed short video perception without being limited by context length. Compared with existing video agents that typically rely on sequential key segment selection, the Map operation enables simpler and more scalable sequence parallel perception of short video segments. Its Reduce step allows for more comprehensive context aggregation and reasoning, surpassing explicit key segment retrieval. This MapReduce principle is applicable to both VLMs and video agents, and we use LLM agents to validate its effectiveness. In practice, MR. Video employs two MapReduce stages: (A) Captioning: generating captions for short video clips (map), then standardizing repeated characters and objects into shared names (reduce); (B) Analysis: for each user question, analyzing relevant information from individual short videos (map), and integrating them into a final answer (reduce). MR. Video achieves over 10% accuracy improvement on the challenging LVBench compared to state-of-the-art VLMs and video agents. Code is available at: https://github.com/ziqipang/MR-Video
- Abstract(参考訳): 本稿では, MR. Videoを提案する。これは, 短いビデオクリップを独立に, 密に知覚し, かつ, 全クリップから情報を収集する, MapReduceのシンプルな原理を実証するエージェント的長ビデオ理解フレームワークである。
VLM(Sequence-to-Sequence Vision-Language Model)と比較して,MRビデオは文脈長に制限されることなく,詳細な短い映像知覚を行う。
シーケンシャルなキーセグメント選択に依存する既存のビデオエージェントと比較して、Map操作は短いビデオセグメントのよりシンプルでスケーラブルなシーケンス並列認識を可能にする。
そのReduceeステップにより、より包括的なコンテキストアグリゲーションと推論が可能になり、明示的なキーセグメント検索を超越する。
このMapReduceの原理は、VLMとビデオエージェントの両方に適用でき、その有効性を検証するためにLLMエージェントを使用します。
A) 短いビデオクリップ(マップ)のキャプションを生成し、次に繰り返し文字やオブジェクトを共有名(リデュース)に標準化する(B) 分析: 各ユーザ質問について、関連する情報を個々のショートビデオ(マップ)から分析し、それらを最終回答(リデュース)に統合する(リデュース)。
MR. Videoは、最先端のVLMやビデオエージェントと比較して、挑戦的なLVBenchの精度を10%以上向上させる。
コードは、https://github.com/ziqipang/MR-Videoで入手できる。
関連論文リスト
- ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting [29.049727807251084]
ViSMapは、時間長ビデオをスーパービジョンなしで要約するシステムだ。
短いビデオ(注釈付きデータが豊富にある)と長いビデオ(そうでないもの)のギャップを埋めます。
論文 参考訳(メタデータ) (2025-04-22T14:06:01Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [89.73538448786405]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:59Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Localizing the Common Action Among a Few Videos [51.09824165433561]
本論文は,長編ビデオにおける動作の時間的範囲をローカライズする試みである。
サポートビデオからの表現を関連するクエリビデオセグメントと整合させることができる新しい3D畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-13T11:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。