論文の概要: Weaver: End-to-End Agentic System Training for Video Interleaved Reasoning
- arxiv url: http://arxiv.org/abs/2602.05829v1
- Date: Thu, 05 Feb 2026 16:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.033877
- Title: Weaver: End-to-End Agentic System Training for Video Interleaved Reasoning
- Title(参考訳): Weaver:ビデオインターリーブ推論のためのエンドツーエンドエージェントシステムトレーニング
- Authors: Yudi Shi, Shangzhe Di, Qirui Chen, Qinian Wang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Weidi Xie,
- Abstract要約: ウィーバー(Weaver)は、エンドツーエンドのトレーニング可能なマルチモーダル推論エージェントシステムである。
Weaverは複数の複雑なビデオ推論ベンチマークのパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 54.9540824532312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video reasoning constitutes a comprehensive assessment of a model's capabilities, as it demands robust perceptual and interpretive skills, thereby serving as a means to explore the boundaries of model performance. While recent research has leveraged text-centric Chain-of-Thought reasoning to augment these capabilities, such approaches frequently suffer from representational mismatch and restricted by limited perceptual acuity. To address these limitations, we propose Weaver, a novel, end-to-end trainable multimodal reasoning agentic system. Weaver empowers its policy model to dynamically invoke diverse tools throughout the reasoning process, enabling progressive acquisition of crucial visual cues and construction of authentic multimodal reasoning trajectories. Furthermore, we integrate a reinforcement learning algorithm to allow the system to freely explore strategies for employing and combining these tools with trajectory-free data. Extensive experiments demonstrate that our system, Weaver, enhances performance on several complex video reasoning benchmarks, particularly those involving long videos.
- Abstract(参考訳): ビデオ推論は、知覚力と解釈力の強いスキルを必要とするため、モデルの性能を包括的に評価し、モデル性能の境界を探索する手段として機能する。
近年の研究では、テキスト中心のChain-of-Thought推論を利用してこれらの能力を増強しているが、このようなアプローチはしばしば表現ミスマッチに悩まされ、知覚力の制限によって制限される。
これらの制約に対処するために、ウィーバー(Weaver)という、新しい、エンドツーエンドのトレーニング可能なマルチモーダル推論エージェントシステムを提案する。
Weaverはそのポリシーモデルに、推論プロセスを通じて多様なツールを動的に呼び出す権限を与え、重要な視覚的手がかりの段階的な獲得と、真のマルチモーダル推論軌道の構築を可能にする。
さらに,これらのツールをトラジェクティブフリーなデータと併用するための戦略を,システムが自由に探求できるように強化学習アルゴリズムを統合する。
我々のシステムであるWeaverは、いくつかの複雑なビデオ推論ベンチマーク、特に長いビデオに関する性能を向上させることを実証した。
関連論文リスト
- VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning [49.35834435935727]
VideoZoomerは、MLLMが推論中に視覚的焦点を制御することができる新しいエージェントフレームワークである。
私たちの7Bモデルは、多種多様な複雑な推論パターンを提供し、幅広いビデオ理解と推論のベンチマークに強いパフォーマンスをもたらします。
これらの創発的な能力は、既存のオープンソースモデルを一貫して上回り、挑戦的なタスクでプロプライエタリなシステムをライバルにさえできる。
論文 参考訳(メタデータ) (2025-12-26T11:43:21Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文 参考訳(メタデータ) (2022-05-25T16:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。