論文の概要: VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception
- arxiv url: http://arxiv.org/abs/2509.21100v1
- Date: Thu, 25 Sep 2025 12:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.908097
- Title: VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception
- Title(参考訳): VideoChat-R1.5: 反復知覚によるマルチモーダル推論強化のためのビジュアルテストタイムスケーリング
- Authors: Ziang Yan, Xinhao Li, Yinan He, Zhengrong Yue, Xiangyu Zeng, Yali Wang, Yu Qiao, Limin Wang, Yi Wang,
- Abstract要約: VTTS(Visual Test-Time Scaling)は、推論中の反復推論を通じてMLLMの推論を強化する新しい手法である。
VTTSは、高信頼の階層的時間領域に注目することで人間の注意を模倣し、更新されたテキスト予測によってガイドされる。
新たに導入した Videochat-R1.5 モデルは,平均 5% 以上の向上を実現しています。
- 参考スコア(独自算出の注目度): 50.446538409259524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inducing reasoning in multimodal large language models (MLLMs) is critical for achieving human-level perception and understanding. Existing methods mainly leverage LLM reasoning to analyze parsed visuals, often limited by static perception stages. This paper introduces Visual Test-Time Scaling (VTTS), a novel approach to enhance MLLMs' reasoning via iterative perception during inference. VTTS mimics humans' hierarchical attention by progressively refining focus on high-confidence spatio-temporal regions, guided by updated textual predictions. Specifically, VTTS employs an Iterative Perception (ITP) mechanism, incorporating reinforcement learning with spatio-temporal supervision to optimize reasoning. To support this paradigm, we also present VTTS-80K, a dataset tailored for iterative perception. These designs allows a MLLM to enhance its performance by increasing its perceptual compute. Extensive experiments validate VTTS's effectiveness and generalization across diverse tasks and benchmarks. Our newly introduced Videochat-R1.5 model has achieved remarkable improvements, with an average increase of over 5\%, compared to robust baselines such as Qwen2.5VL-3B and -7B, across more than 15 benchmarks that encompass video conversation, video reasoning, and spatio-temporal perception.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)における推論の導入は、人間レベルの認識と理解を達成するために重要である。
既存の手法は主にLLM推論を利用して解析された視覚を解析し、しばしば静的な知覚段階によって制限される。
本稿では,推論中の反復的知覚を通じてMLLMの推論を強化する新しい手法であるVisual Test-Time Scaling (VTTS)を紹介する。
VTTSは、高信頼の時空間領域に徐々に焦点を絞り、更新されたテキスト予測によって導かれることによって、人間の階層的な注意を模倣する。
具体的には、VTTSは反復知覚(Iterative Perception:ITP)機構を採用し、推論を最適化するために、時空間の時間的監督による強化学習を取り入れている。
また,このパラダイムをサポートするために,反復知覚に適したデータセットであるVTTS-80Kを提案する。
これらの設計により、MLLMは知覚的計算量を増やすことで性能を向上させることができる。
広範囲にわたる実験により、VTTSの有効性と様々なタスクやベンチマークにおける一般化が検証された。
Qwen2.5VL-3B や -7B のような頑健なベースラインに対して,ビデオ会話,ビデオ推論,時空間知覚を含む15以上のベンチマークでは,平均 5 % 以上の向上が達成されている。
関連論文リスト
- Multi-Step Visual Reasoning with Visual Tokens Scaling and Verification [22.871255950998016]
本稿では,MLLMが視覚コンテンツに対して検証者誘導推論を行うことを可能にする,推論時ビジュアルトークンスケーリングのための新しいフレームワークを提案する。
提案手法は,様々な視覚的推論ベンチマークにおいて,既存手法よりも優れていた。
これらの結果は,次世代MLLMにおける微粒でコンテキスト対応の視覚的推論を実現するための動的推論機構の実現を実証するものである。
論文 参考訳(メタデータ) (2025-06-08T17:38:49Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs [74.2538340966038]
マルチモーダル言語モデル(MLLM)が視覚入力をどのように処理するかを,その注意機構を解析して検討する。
LLMにおける注目のごく一部だけが視覚的理解に有効である。
我々は,KVキャッシュ最適化手法であるSparseMMを導入し,その視覚的スコアに基づいて非対称な計算予算をLLMの先頭に割り当てる。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning [42.316341452766075]
本稿では,RFT(Reinforcement Fine-temporalning)による映像知覚の向上を目的とする。
我々は,チャット機能を犠牲にすることなく,最先端のリアルタイムタスクを実現する強力なビデオMLLMであるVideoChat-R1を開発した。
ビデオMLLMのタスク強化におけるRTTの可能性について検討した。
論文 参考訳(メタデータ) (2025-04-09T15:09:27Z) - Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。