論文の概要: ViSS-R1: Self-Supervised Reinforcement Video Reasoning
- arxiv url: http://arxiv.org/abs/2511.13054v1
- Date: Mon, 17 Nov 2025 07:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.796494
- Title: ViSS-R1: Self-Supervised Reinforcement Video Reasoning
- Title(参考訳): ViSS-R1:自己監督型強化ビデオ推論
- Authors: Bo Fang, Yuxin Song, Qiangqiang Wu, Haoyuan Sun, Wenhao Wu, Antoni B. Chan,
- Abstract要約: 本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
- 参考スコア(独自算出の注目度): 84.1180294023835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complex video reasoning remains a significant challenge for Multimodal Large Language Models (MLLMs), as current R1-based methodologies often prioritize text-centric reasoning derived from text-based and image-based developments. In video tasks, such strategies frequently underutilize rich visual information, leading to potential shortcut learning and increased susceptibility to hallucination. To foster a more robust, visual-centric video understanding, we start by introducing a novel self-supervised reinforcement learning GRPO algorithm (Pretext-GRPO) within the standard R1 pipeline, in which positive rewards are assigned for correctly solving pretext tasks on transformed visual inputs, which makes the model to non-trivially process the visual information. Building on the effectiveness of Pretext-GRPO, we further propose the ViSS-R1 framework, which streamlines and integrates pretext-task-based self-supervised learning directly into the MLLM's R1 post-training paradigm. Instead of relying solely on sparse visual cues, our framework compels models to reason about transformed visual input by simultaneously processing both pretext questions (concerning transformations) and true user queries. This necessitates identifying the applied transformation and reconstructing the original video to formulate accurate final answers. Comprehensive evaluations on six widely-used video reasoning and understanding benchmarks demonstrate the effectiveness and superiority of our Pretext-GRPO and ViSS-R1 for complex video reasoning. Our codes and models will be publicly available.
- Abstract(参考訳): 現在のR1ベースの方法論は、テキストベースと画像ベースの開発に由来するテキスト中心の推論を優先することが多いため、複雑なビデオ推論はMLLM(Multimodal Large Language Models)にとって重要な課題である。
ビデオタスクでは、このような戦略はリッチな視覚情報を多用せず、潜在的ショートカット学習と幻覚への感受性を高める。
より堅牢で視覚中心の映像理解を促進するために、我々は、新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプラインに導入することから始める。
さらに,Pretext-GRPOの有効性に基づいて,プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接組み込むViSS-R1フレームワークを提案する。
私たちのフレームワークは、スパースなビジュアルキューのみに頼るのではなく、プリテキスト質問(変換の確認)と真のユーザクエリの両方を同時に処理することで、変換されたビジュアル入力を推論するためにモデルを補完します。
これにより、適用された変換を特定し、元の動画を再構築し、正確な最終回答を定式化する必要がある。
広範に使用されている6つのビデオ推論および理解ベンチマークの総合評価は、複雑なビデオ推論におけるPretext-GRPOとViSS-R1の有効性と優位性を示している。
私たちのコードとモデルは公開されます。
関連論文リスト
- REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding [23.684146245231457]
ロングフォームビデオ理解には、よりリッチでダイナミックな視覚入力が含まれる。
純粋にテキストベースのリフレクションメカニズムは、クロスモーダルなインタラクション機能を欠いている。
ツール拡張マルチモーダルリフレクションのための新しいフレームワークであるREVISORを提案する。
論文 参考訳(メタデータ) (2025-11-17T06:25:12Z) - Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback [33.127607245587576]
本稿では,MLLMが生画像のみから複雑な視覚的推論を学習できるようにするフレームワークを提案する。
我々は、この相対的容易さが強化学習による最適化に理想的な報酬信号を提供することを示した。
RRVF訓練モデルは既存のMLLMを上回り、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。
論文 参考訳(メタデータ) (2025-07-28T12:21:19Z) - Speech Recognition on TV Series with Video-guided Post-ASR Correction [38.54083871956027]
本稿では、ビデオコンテキストをキャプチャし、ASR出力を洗練するためのVPC(Video-Guided Post-ASR Correction)フレームワークを提案する。
本手法は複雑なマルチメディア環境における転写精度を常に向上させる。
論文 参考訳(メタデータ) (2025-06-08T23:36:31Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。