論文の概要: MAVEN: A Multi-stage Agentic Annotation Pipeline for Video Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2605.21917v1
- Date: Thu, 21 May 2026 02:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.063861
- Title: MAVEN: A Multi-stage Agentic Annotation Pipeline for Video Reasoning Tasks
- Title(参考訳): MAVEN:ビデオ推論タスクのための多段階エージェントアノテーションパイプライン
- Authors: Han Zhang, Wanting Jiang, Tomasz Kornuta, Tian Zheng, Vidya Murali,
- Abstract要約: 我々は、生動画をChain-of-Thought(CoT)推論トレースを用いたマルチタスクトレーニングデータに変換するマルチステージエージェントパイプラインであるMAVENを提案する。
MAVENはエージェント駆動のドメイン適応をサポートしており、新しいビデオデータセットとターゲットの質問例を与えられたエージェントは、手動のリエンジニアリングなしでトップダウンのプロンプトを再設計する。
我々はMAVENを5,300本以上のトラヒックビデオと微動コスモス・レーソン2-8Bのラベル付けに応用した。
- 参考スコア(独自算出の注目度): 3.6322796145178167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training Vision Language Models (VLMs) for video event reasoning requires high-quality structured annotations capturing not only what happened, but when, where, why, and with what consequence, at a scale manual labelling cannot support. We present MAVEN (Multi-stage Agentic Video Event aNnotation), a multi-stage agentic pipeline that turns raw videos into multi-task training data with Chain-of-Thought (CoT) reasoning traces, organized around a designated Event of Focus. At its core, MAVEN synthesizes a Multi-Scale Spatio-Temporal Event Description (MSTED) from three complementary caption levels; this explicit intermediate serves as the sole input to downstream Q&A generation across multiple task formats. Crucially, MAVEN supports agent-driven domain adaptation: given a new video dataset and target question examples, the agent redesigns all prompts top-down without manual re-engineering. A hierarchical refinement loop further classifies annotation errors against a taxonomy, traces root causes to the originating pipeline stage, and applies targeted edits that rewrite prompts or modify the pipeline structure itself, iteratively improving data quality. We apply MAVEN to label over 5,300 traffic videos and fine-tune Cosmos-Reason2-8B on the resulting data. On a private CCTV evaluation set, fine-tuning surpasses both Gemini 2.5 Pro and 3.1 Flash, including a $+38.8$-point gain in MCQ accuracy over zero-shot. On AccidentBench, CCTV-only training lifts Cosmos-Reason2 by $+10.7$ MCQ points and matches Gemini 2.5 Pro despite seeing no dashcam videos; adding agent-adapted dashcam annotations narrows the gap to Gemini 3.1 Flash, and RL post-training pushes overall performance past both Gemini baselines. Qualitative results on warehouse surveillance and public safety videos further show the agentic workflow readily adapts the pipeline to new domains.
- Abstract(参考訳): ビデオイベント推論のためのビジョン言語モデル(VLM)のトレーニングには、何が起きたかだけでなく、いつ、どこで、なぜ、そして何故、大規模な手動ラベリングがサポートできないのかをキャプチャする高品質な構造化アノテーションが必要である。
提案するMAVEN(Multi-stage Agentic Video Event aNnotation)は,多段階のエージェントパイプラインで,生動画をChain-of-Thought(CoT)推論トレースを用いてマルチタスクトレーニングデータに変換する。
MAVENは3つの補完的なキャプションレベルからマルチスケールの時空間イベント記述(MSTED)を合成する。
重要なことに、MAVENはエージェント駆動のドメイン適応をサポートしている。新しいビデオデータセットとターゲットの質問例が与えられた場合、エージェントは手動のリエンジニアリングなしでトップダウンのプロンプトを再設計する。
階層的改善ループは、分類学に対するアノテーションエラーをさらに分類し、根本原因をパイプラインステージにトレースし、パイプライン構造自体を書き換えたり修正したりするターゲット編集を適用し、データ品質を反復的に改善する。
我々はMAVENを5,300本以上のトラヒックビデオと微動コスモス・レーソン2-8Bのラベル付けに応用した。
プライベートCCTV評価セットでは、微調整がGemini 2.5 Proと3.1 Flashを上回り、0ショット以上のMCQ精度が+38.8$ポイント向上した。
AccidentBenchでは、CCTVのみのトレーニングがCosmos-Reason2を+10.7ドルのMCQポイントで持ち上げ、ダッシュカムビデオがないにもかかわらずGemini 2.5 Proとマッチする。
倉庫の監視と安全ビデオの質的な結果はさらに、エージェントワークフローがパイプラインを新しいドメインに容易に適応させることを示している。
関連論文リスト
- TS-Attn: Temporal-wise Separable Attention for Multi-Event Video Generation [61.27832169507143]
テンポラルワイド分離注意機構(TS-Attn)を提案する。
TS-Attnは、マルチイベントシナリオにおける時間的認識とグローバルコヒーレンスを確保するために、アテンション分布を再構成する。
Wan2.1-T2V-14BとWan2.2-T2V-A14BではStoryEval-Benchのスコアが33.5%上昇し、16.4%上昇した。
論文 参考訳(メタデータ) (2026-04-21T13:56:36Z) - Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding [98.3098451637867]
Video-MME-v2は、ビデオ理解の堅牢性と忠実さを厳格に評価するために設計された総合的なベンチマークである。
データ品質を保証するため、Video-MME-v2は厳格に制御された人間のアノテーションパイプラインを通して構築される。
論文 参考訳(メタデータ) (2026-04-06T17:59:56Z) - Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events [53.2930351741501]
MMS(Multimodal Summarization)は、ビデオ、テキスト、画像間の情報を理解し統合することで、簡潔なテキスト要約を生成することを目的としている。
既存のアプローチは、(1)ドメイン固有の監督への依存、(2)弱いクロスモーダルな接地による暗黙の融合、(3)イベント遷移のないフラット・テンポラル・モデリングの3つの主要な課題に悩まされている。
これらの問題に対処するために、**CoE*は、階層イベントグラフ(HEG)によってガイドされた**Chain-of-Events**を通じて構造化推論を実行する、トレーニング不要なMMSフレームワークである**CoE*を紹介する。
論文 参考訳(メタデータ) (2026-03-06T12:29:33Z) - CineLOG: A Training Free Approach for Cinematic Long Video Generation [19.97092710696699]
5000の高品質なバランスの取れたビデオクリップのデータセットであるCineLOGを紹介した。
各エントリには、標準的な映画分類に基づく詳細なシーン記述、明示的なカメラ指示が注釈付けされている。
より成熟した技術で、複雑なテキストからジャンルビデオ(T2V)タスク生成を4つのより簡単なステージに分割し、このデータセットを作成するように設計された新しいパイプラインを提示する。
論文 参考訳(メタデータ) (2025-12-13T06:44:09Z) - VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos [62.29924199978745]
VideoAgentTrekは、Webスケールで公開されているスクリーン録画ビデオからトレーニングデータを自動的にマイニングするスケーラブルなパイプラインである。
生のビデオには暗黙のデモが含まれているが、明示的なアクションラベルがない。
39,000のYouTubeチュートリアルビデオに適用されたパイプラインは、自動的に1250万のインタラクションステップを生成します。
論文 参考訳(メタデータ) (2025-10-22T11:25:48Z) - Leader360V: The Large-scale, Real-world 360 Video Dataset for Multi-task Learning in Diverse Environment [19.70383859926191]
Leader360Vは、インスタンスのセグメンテーションとトラッキングのための、最初の大規模なラベル付き実世界の360ビデオデータセットである。
私たちのデータセットは、屋内や都市環境から自然や動的な屋外のシーンまで、高いシーンの多様性を享受しています。
実験によると、Lead360Vは360度ビデオセグメンテーションとトラッキングのモデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-06-17T07:37:08Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。