論文の概要: Reinforcing Video Reasoning Segmentation to Think Before It Segments
- arxiv url: http://arxiv.org/abs/2508.11538v1
- Date: Fri, 15 Aug 2025 15:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.130303
- Title: Reinforcing Video Reasoning Segmentation to Think Before It Segments
- Title(参考訳): ビデオのセグメンテーションを、セグメンテーション前に考え直す
- Authors: Sitong Gong, Lu Zhang, Yunzhi Zhuge, Xu Jia, Pingping Zhang, Huchuan Lu,
- Abstract要約: 本稿では,ビデオ推論セグメンテーションのためのLVLMであるVeason-R1を紹介する。
Veason-R1 は、Chain-of-Thought trajectories を付加した Group Relative Policy Optimization (O) を通じて訓練される。
空間的アライメントと時間的整合性を高める包括的報酬機構を組み込んだ。
Veason-R1は、複数のベンチマークで最先端のパフォーマンスを達成し、先行技術を上回っている。
- 参考スコア(独自算出の注目度): 67.5703457389657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video reasoning segmentation (VRS) endeavors to delineate referred objects in videos guided by implicit instructions that encapsulate human intent and temporal logic. Previous approaches leverage large vision language models (LVLMs) to encode object semantics into <SEG> tokens for mask prediction. However, this paradigm suffers from limited interpretability during inference and suboptimal performance due to inadequate spatiotemporal reasoning. Drawing inspiration from seminal breakthroughs in reinforcement learning, we introduce Veason-R1, a specialized LVLM for VRS that emphasizes structured reasoning in segmentation. Veason-R1 is trained through Group Relative Policy Optimization (GRPO) augmented with Chain-of-Thought (CoT) initialization. To begin with, we curate high-quality CoT training data to instill structured reasoning trajectories, bridging video-level semantics and frame-level spatial grounding, yielding the supervised fine-tuned model Veason-SFT. Subsequently, GRPO fine-tuning encourages efficient exploration of the reasoning space by optimizing reasoning chains. To this end, we incorporate a holistic reward mechanism that synergistically enhances spatial alignment and temporal consistency, bolstering keyframe localization and fine-grained grounding. Comprehensive empirical evaluations demonstrate that Veason-R1 achieves state-of-the-art performance on multiple benchmarks, surpassing prior art by significant margins (e.g., +1.3 J &F in ReVOS and +10.0 J &F in ReasonVOS), while exhibiting robustness to hallucinations (+8.8 R). Our code and model weights will be available at Veason-R1.
- Abstract(参考訳): ビデオ推論セグメンテーション(VRS)は、人間の意図と時間論理をカプセル化する暗黙の指示によって導かれるビデオ内の参照オブジェクトを記述しようとする試みである。
従来のアプローチでは、大きな視覚言語モデル(LVLM)を使用して、オブジェクトのセマンティクスを<SEG>トークンにエンコードしてマスク予測を行う。
しかし、このパラダイムは、不適切な時空間的推論のため、推論中の限定的な解釈可能性と最適以下の性能に悩まされる。
強化学習における初歩的なブレークスルーからインスピレーションを得て,セグメンテーションにおける構造化推論を強調するVRS専用LVLMであるVeason-R1を紹介する。
Veason-R1 は Group Relative Policy Optimization (GRPO) を通じて Chain-of-Thought (CoT) の初期化で訓練される。
まず、高品質なCoTトレーニングデータをキュレートし、構造化推論軌道、ブリッジングビデオレベルのセマンティクス、フレームレベルの空間グラウンド化を行い、教師付き微調整モデルVeason-SFTを得る。
その後、GRPOファインチューニングは推論鎖を最適化することで推論空間の効率的な探索を促進する。
この目的のために、空間的アライメントと時間的一貫性を相乗的に向上し、キーフレームの局所化ときめ細かいグラウンド化を促進させる包括的報酬機構を組み込んだ。
総合的な実証的な評価では、Veason-R1は複数のベンチマークで最先端のパフォーマンスを達成し、先行技術(ReVOSでは+1.3 J &F、ReasonVOSでは+10.0 J &F)を上回り、幻覚に対する堅牢性(+8.8R)を示した。
私たちのコードとモデルの重み付けは、Veason-R1で利用可能になります。
関連論文リスト
- TAR-TVG: Enhancing VLMs with Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding [28.79516973256083]
時間的ビデオグラウンディングは、自然言語クエリに対応するビデオセグメントを正確にローカライズすることを目的としている。
テンポラルビデオグラウンド(TAR-TVG)のためのタイムスタンプアンカー制約推論を提案する。
TAR-TVGは、思考内容の明示的な監督を強制するために、推論プロセス内にタイムスタンプアンカーを導入する。
論文 参考訳(メタデータ) (2025-08-11T06:59:32Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs [12.883053399582174]
現在の視覚言語モデルは、きめ細かい空間的推論に苦慮している。
本稿では,これらの制約に対処する視覚言語推論モデルであるSpatialReasoner-R1を紹介する。
その結果,fDPOは空間品質タスクにおいて標準DPOよりも平均4.1%向上し,空間量タスクでは9.0%向上した。
論文 参考訳(メタデータ) (2025-06-26T18:00:00Z) - Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models [18.06361678575107]
視覚基盤モデルのコンテキスト内推論能力をインセンティブ化する最初の試みであるtextbfDINO-R1 を提案する。
DINO-R1は、新しい強化スタイルのトレーニング戦略である textbfGroup Relative Query Optimization (GRQO) を導入した。
COCO、LVIS、ODinWの実験により、DINO-R1は制御された微調整ベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2025-05-29T21:58:06Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。
これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。
基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。