論文の概要: Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
- arxiv url: http://arxiv.org/abs/2511.17490v2
- Date: Tue, 25 Nov 2025 03:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 15:01:35.361602
- Title: Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
- Title(参考訳): Video-R4: テキストリッチのリアクションをビジュアルリミネーションで強化
- Authors: Yolo Y. Tang, Daiki Shimada, Hang Hua, Chao Huang, Jing Bi, Rogerio Feris, Chenliang Xu,
- Abstract要約: Video-R4(Reinforceing Text-Rich Video Reasoning with Visual Rumination)は、視覚ルミネーションを行うビデオ推論LMMである。
本研究では、7B LMMを段階的に微調整し、原子を学習し、視覚操作を混合する多段階ルミネーション学習フレームワークを提案する。
ビデオR4-7Bは、M4-ViteVQAの最先端結果を達成し、さらにマルチページ文書QA、スライドQA、ジェネリックビデオQAに一般化する。
- 参考スコア(独自算出の注目度): 37.23826899535907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding text-rich videos requires reading small, transient textual cues that often demand repeated inspection. Yet most video QA models rely on single-pass perception over fixed frames, leading to hallucinations and failures on fine-grained evidence. Inspired by how humans pause, zoom, and re-read critical regions, we introduce Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination), a video reasoning LMM that performs visual rumination: iteratively selecting frames, zooming into informative regions, re-encoding retrieved pixels, and updating its reasoning state. We construct two datasets with executable rumination trajectories: Video-R4-CoT-17k for supervised practice and Video-R4-RL-30k for reinforcement learning. We propose a multi-stage rumination learning framework that progressively finetunes a 7B LMM to learn atomic and mixing visual operations via SFT and GRPO-based RL. Video-R4-7B achieves state-of-the-art results on M4-ViteVQA and further generalizes to multi-page document QA, slides QA, and generic video QA, demonstrating that iterative rumination is an effective paradigm for pixel-grounded multimodal reasoning. Project Page: https://yunlong10.github.io/Video-R4/
- Abstract(参考訳): テキストリッチなビデオを理解するには、しばしば繰り返し検査を要求する小さな、過渡的なテキストキューを読む必要がある。
しかし、ほとんどのビデオQAモデルは固定フレームよりもシングルパスの知覚に依存しており、微細な証拠に対する幻覚と失敗につながります。
人間の停止、ズーム、そして重要な領域の再読み取りの仕方から着想を得たビデオR4(Reinforce Text-Rich Video Reasoning with Visual Rumination)は、フレームを反復的に選択し、情報領域にズームし、取得したピクセルを再エンコードし、推論状態を更新するビデオ推論LMMである。
教師付き練習のための Video-R4-CoT-17k と強化学習のための Video-R4-RL-30k という,実行可能なラミネート軌道を持つ2つのデータセットを構築した。
本研究では、7B LMMを段階的に微調整し、SFTとGRPOベースのRLで視覚操作を学習する多段階ルミネーション学習フレームワークを提案する。
ビデオR4-7Bは、M4-ViteVQAの最先端結果を達成し、さらに多ページ文書QA、スライドQA、ジェネリックビデオQAに一般化し、反復ルミネーションが画素グラウンドのマルチモーダル推論に有効なパラダイムであることを実証する。
Project Page: https://yunlong10.github.io/Video-R4/
関連論文リスト
- ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - Video-R1: Reinforcing Video Reasoning in MLLMs [48.62020003266273]
Video-R1は、ビデオ推論にインセンティブを与えるためのR1パラダイムを体系的に探求する最初の試みである。
まず,T-GRPOアルゴリズムを提案する。
SFTコールドスタートのためのVideo-R1-CoT-165kと、RLトレーニングのためのVideo-R1-260kの2つのデータセットを構築した。
論文 参考訳(メタデータ) (2025-03-27T17:59:51Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - I4VGen: Image as Free Stepping Stone for Text-to-Video Generation [28.910648256877113]
I4VGenは、事前訓練されたテキスト-ビデオ拡散モデルを強化するための新しいビデオ拡散推論パイプラインである。
I4VGenはアンカー画像合成とアンカー画像拡張テキスト・ビデオ合成の2段階からなる。
実験の結果,提案手法は高次視覚リアリズムとテキスト忠実度データセットを用いたビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-06-04T11:48:44Z) - MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens [36.02433030551474]
MiniGPT4-Videoは、ビデオ理解に特化した多モード大言語モデル(LLM)である。
MiniGPT4-videoは、視覚的コンテンツだけでなく、テキストによる会話も含んでいるため、モデルが視覚的コンポーネントとテキストコンポーネントの両方を含むクエリに効果的に答えることができる。
論文 参考訳(メタデータ) (2024-04-04T12:46:01Z) - VideoPrism: A Foundational Visual Encoder for Video Understanding [90.01845485201746]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。