論文の概要: Reinforcing Video Reasoning Segmentation to Think Before It Segments
- arxiv url: http://arxiv.org/abs/2508.11538v1
- Date: Fri, 15 Aug 2025 15:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.130303
- Title: Reinforcing Video Reasoning Segmentation to Think Before It Segments
- Title(参考訳): ビデオのセグメンテーションを、セグメンテーション前に考え直す
- Authors: Sitong Gong, Lu Zhang, Yunzhi Zhuge, Xu Jia, Pingping Zhang, Huchuan Lu,
- Abstract要約: 本稿では,ビデオ推論セグメンテーションのためのLVLMであるVeason-R1を紹介する。
Veason-R1 は、Chain-of-Thought trajectories を付加した Group Relative Policy Optimization (O) を通じて訓練される。
空間的アライメントと時間的整合性を高める包括的報酬機構を組み込んだ。
Veason-R1は、複数のベンチマークで最先端のパフォーマンスを達成し、先行技術を上回っている。
- 参考スコア(独自算出の注目度): 67.5703457389657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video reasoning segmentation (VRS) endeavors to delineate referred objects in videos guided by implicit instructions that encapsulate human intent and temporal logic. Previous approaches leverage large vision language models (LVLMs) to encode object semantics into <SEG> tokens for mask prediction. However, this paradigm suffers from limited interpretability during inference and suboptimal performance due to inadequate spatiotemporal reasoning. Drawing inspiration from seminal breakthroughs in reinforcement learning, we introduce Veason-R1, a specialized LVLM for VRS that emphasizes structured reasoning in segmentation. Veason-R1 is trained through Group Relative Policy Optimization (GRPO) augmented with Chain-of-Thought (CoT) initialization. To begin with, we curate high-quality CoT training data to instill structured reasoning trajectories, bridging video-level semantics and frame-level spatial grounding, yielding the supervised fine-tuned model Veason-SFT. Subsequently, GRPO fine-tuning encourages efficient exploration of the reasoning space by optimizing reasoning chains. To this end, we incorporate a holistic reward mechanism that synergistically enhances spatial alignment and temporal consistency, bolstering keyframe localization and fine-grained grounding. Comprehensive empirical evaluations demonstrate that Veason-R1 achieves state-of-the-art performance on multiple benchmarks, surpassing prior art by significant margins (e.g., +1.3 J &F in ReVOS and +10.0 J &F in ReasonVOS), while exhibiting robustness to hallucinations (+8.8 R). Our code and model weights will be available at Veason-R1.
- Abstract(参考訳): ビデオ推論セグメンテーション(VRS)は、人間の意図と時間論理をカプセル化する暗黙の指示によって導かれるビデオ内の参照オブジェクトを記述しようとする試みである。
従来のアプローチでは、大きな視覚言語モデル(LVLM)を使用して、オブジェクトのセマンティクスを<SEG>トークンにエンコードしてマスク予測を行う。
しかし、このパラダイムは、不適切な時空間的推論のため、推論中の限定的な解釈可能性と最適以下の性能に悩まされる。
強化学習における初歩的なブレークスルーからインスピレーションを得て,セグメンテーションにおける構造化推論を強調するVRS専用LVLMであるVeason-R1を紹介する。
Veason-R1 は Group Relative Policy Optimization (GRPO) を通じて Chain-of-Thought (CoT) の初期化で訓練される。
まず、高品質なCoTトレーニングデータをキュレートし、構造化推論軌道、ブリッジングビデオレベルのセマンティクス、フレームレベルの空間グラウンド化を行い、教師付き微調整モデルVeason-SFTを得る。
その後、GRPOファインチューニングは推論鎖を最適化することで推論空間の効率的な探索を促進する。
この目的のために、空間的アライメントと時間的一貫性を相乗的に向上し、キーフレームの局所化ときめ細かいグラウンド化を促進させる包括的報酬機構を組み込んだ。
総合的な実証的な評価では、Veason-R1は複数のベンチマークで最先端のパフォーマンスを達成し、先行技術(ReVOSでは+1.3 J &F、ReasonVOSでは+10.0 J &F)を上回り、幻覚に対する堅牢性(+8.8R)を示した。
私たちのコードとモデルの重み付けは、Veason-R1で利用可能になります。
関連論文リスト
- Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - Bridging Semantics and Geometry: A Decoupled LVLM-SAM Framework for Reasoning Segmentation in Remote Sensing [8.731693840957716]
Think2Seg-RSはLVLMプロンプトをトレーニングし、構造化された幾何学的プロンプトを介して凍ったセグメンション・アプライシング・モデル(SAM)を制御するフレームワークである。
このフレームワークは、EarthReasonデータセット上で最先端のパフォーマンスを達成する。
コンパクトセグメンタは、意味レベルの監督の下でより大きなセグメンタより優れており、異種空中背景において負のプロンプトは効果がない。
論文 参考訳(メタデータ) (2025-12-22T11:46:42Z) - Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文 参考訳(メタデータ) (2025-12-19T12:56:17Z) - ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning [44.49803237328707]
ReVSegは、事前訓練された視覚言語モデルのネイティブインターフェースにおけるシーケンシャルな決定として推論を実行する。
我々は、多段階推論連鎖を最適化するために強化学習を採用し、モデルが結果駆動信号から判断品質を自己定義できるようにする。
論文 参考訳(メタデータ) (2025-12-02T14:44:12Z) - VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning [33.42243283912315]
Chain-of-Thoughtプロンプトは、大きな言語モデルで複雑な推論を引き出すのに極めて効果的であることが証明されている。
既存のビジュアルCoTリソースは、典型的には小さく、ドメイン固有であり、構成的な視覚的推論に必要な人間のような段階的な構造を欠いている。
視覚的連鎖推論を促進するために設計された大規模データセットであるVisReasonを紹介した。
論文 参考訳(メタデータ) (2025-11-21T19:30:24Z) - Unlocking the Essence of Beauty: Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization [63.169050703903515]
強化学習(RL)を用いた包括的審美的推論フレームワークAes-R1を提案する。
Aes-R1はパイプライン、AesCoTを統合し、高品質なチェーン・オブ・プリーティングデータの構築とフィルタリングを行う。
実験により、Aes-R1は背骨の平均PLCC/SRCCを47.9%/34.8%改善することが示された。
論文 参考訳(メタデータ) (2025-09-26T04:55:00Z) - TAR-TVG: Enhancing VLMs with Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding [28.79516973256083]
時間的ビデオグラウンディングは、自然言語クエリに対応するビデオセグメントを正確にローカライズすることを目的としている。
テンポラルビデオグラウンド(TAR-TVG)のためのタイムスタンプアンカー制約推論を提案する。
TAR-TVGは、思考内容の明示的な監督を強制するために、推論プロセス内にタイムスタンプアンカーを導入する。
論文 参考訳(メタデータ) (2025-08-11T06:59:32Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs [12.883053399582174]
現在の視覚言語モデルは、きめ細かい空間的推論に苦慮している。
本稿では,これらの制約に対処する視覚言語推論モデルであるSpatialReasoner-R1を紹介する。
その結果,fDPOは空間品質タスクにおいて標準DPOよりも平均4.1%向上し,空間量タスクでは9.0%向上した。
論文 参考訳(メタデータ) (2025-06-26T18:00:00Z) - Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models [18.06361678575107]
視覚基盤モデルのコンテキスト内推論能力をインセンティブ化する最初の試みであるtextbfDINO-R1 を提案する。
DINO-R1は、新しい強化スタイルのトレーニング戦略である textbfGroup Relative Query Optimization (GRQO) を導入した。
COCO、LVIS、ODinWの実験により、DINO-R1は制御された微調整ベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2025-05-29T21:58:06Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。
これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。
基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。