論文の概要: Weaver: End-to-End Agentic System Training for Video Interleaved Reasoning
- arxiv url: http://arxiv.org/abs/2602.05829v1
- Date: Thu, 05 Feb 2026 16:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.033877
- Title: Weaver: End-to-End Agentic System Training for Video Interleaved Reasoning
- Title(参考訳): Weaver:ビデオインターリーブ推論のためのエンドツーエンドエージェントシステムトレーニング
- Authors: Yudi Shi, Shangzhe Di, Qirui Chen, Qinian Wang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Weidi Xie,
- Abstract要約: ウィーバー(Weaver)は、エンドツーエンドのトレーニング可能なマルチモーダル推論エージェントシステムである。
Weaverは複数の複雑なビデオ推論ベンチマークのパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 54.9540824532312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video reasoning constitutes a comprehensive assessment of a model's capabilities, as it demands robust perceptual and interpretive skills, thereby serving as a means to explore the boundaries of model performance. While recent research has leveraged text-centric Chain-of-Thought reasoning to augment these capabilities, such approaches frequently suffer from representational mismatch and restricted by limited perceptual acuity. To address these limitations, we propose Weaver, a novel, end-to-end trainable multimodal reasoning agentic system. Weaver empowers its policy model to dynamically invoke diverse tools throughout the reasoning process, enabling progressive acquisition of crucial visual cues and construction of authentic multimodal reasoning trajectories. Furthermore, we integrate a reinforcement learning algorithm to allow the system to freely explore strategies for employing and combining these tools with trajectory-free data. Extensive experiments demonstrate that our system, Weaver, enhances performance on several complex video reasoning benchmarks, particularly those involving long videos.
- Abstract(参考訳): ビデオ推論は、知覚力と解釈力の強いスキルを必要とするため、モデルの性能を包括的に評価し、モデル性能の境界を探索する手段として機能する。
近年の研究では、テキスト中心のChain-of-Thought推論を利用してこれらの能力を増強しているが、このようなアプローチはしばしば表現ミスマッチに悩まされ、知覚力の制限によって制限される。
これらの制約に対処するために、ウィーバー(Weaver)という、新しい、エンドツーエンドのトレーニング可能なマルチモーダル推論エージェントシステムを提案する。
Weaverはそのポリシーモデルに、推論プロセスを通じて多様なツールを動的に呼び出す権限を与え、重要な視覚的手がかりの段階的な獲得と、真のマルチモーダル推論軌道の構築を可能にする。
さらに,これらのツールをトラジェクティブフリーなデータと併用するための戦略を,システムが自由に探求できるように強化学習アルゴリズムを統合する。
我々のシステムであるWeaverは、いくつかの複雑なビデオ推論ベンチマーク、特に長いビデオに関する性能を向上させることを実証した。
関連論文リスト
- VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning [49.35834435935727]
VideoZoomerは、MLLMが推論中に視覚的焦点を制御することができる新しいエージェントフレームワークである。
私たちの7Bモデルは、多種多様な複雑な推論パターンを提供し、幅広いビデオ理解と推論のベンチマークに強いパフォーマンスをもたらします。
これらの創発的な能力は、既存のオープンソースモデルを一貫して上回り、挑戦的なタスクでプロプライエタリなシステムをライバルにさえできる。
論文 参考訳(メタデータ) (2025-12-26T11:43:21Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。