論文の概要: VideoSeg-R1:Reasoning Video Object Segmentation via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.16077v1
- Date: Thu, 20 Nov 2025 06:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.492132
- Title: VideoSeg-R1:Reasoning Video Object Segmentation via Reinforcement Learning
- Title(参考訳): VideoSeg-R1:強化学習によるビデオオブジェクトセグメンテーションの推論
- Authors: Zishan Xu, Yifu Guo, Yuquan Lu, Fengyu Yang, Junxin Li,
- Abstract要約: VideoSeg-R1は、ビデオ推論セグメンテーションに強化学習を導入するためのフレームワークである。
1)人間の注意をエミュレートするための階層的なテキスト誘導フレームサンプリング,(2)明示的な推論チェーンとともに空間的手がかりを生成する推論モデル,(3)SAM2とXMemを用いたセグメンテーション・プロパゲーション・ステージである。
- 参考スコア(独自算出の注目度): 14.065667728414942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional video reasoning segmentation methods rely on supervised fine-tuning, which limits generalization to out-of-distribution scenarios and lacks explicit reasoning. To address this, we propose \textbf{VideoSeg-R1}, the first framework to introduce reinforcement learning into video reasoning segmentation. It adopts a decoupled architecture that formulates the task as joint referring image segmentation and video mask propagation. It comprises three stages: (1) A hierarchical text-guided frame sampler to emulate human attention; (2) A reasoning model that produces spatial cues along with explicit reasoning chains; and (3) A segmentation-propagation stage using SAM2 and XMem. A task difficulty-aware mechanism adaptively controls reasoning length for better efficiency and accuracy. Extensive evaluations on multiple benchmarks demonstrate that VideoSeg-R1 achieves state-of-the-art performance in complex video reasoning and segmentation tasks. The code will be publicly available at https://github.com/euyis1019/VideoSeg-R1.
- Abstract(参考訳): 従来のビデオ推論セグメンテーション手法は教師付き微調整に依存しており、これは一般化を配布外シナリオに制限し、明確な推論を欠いている。
これを解決するために,ビデオ推論セグメンテーションに強化学習を導入する最初のフレームワークである‘textbf{VideoSeg-R1} を提案する。
タスクを共同参照イメージセグメンテーションとビデオマスクの伝搬として定式化する分離アーキテクチャを採用する。
1)人間の注意をエミュレートするための階層的なテキスト誘導フレームサンプリング,(2)明示的な推論チェーンとともに空間的手がかりを生成する推論モデル,(3)SAM2とXMemを用いたセグメンテーション・プロパゲーション・ステージである。
タスク困難認識機構は、推論長を適応的に制御し、効率と精度を向上する。
複数のベンチマークによる大規模な評価では、VideoSeg-R1は複雑なビデオ推論やセグメンテーションタスクにおいて最先端のパフォーマンスを達成する。
コードはhttps://github.com/euyis1019/VideoSeg-R1.comで公開される。
関連論文リスト
- Invert4TVG: A Temporal Video Grounding Framework with Inversion Tasks for Enhanced Action Understanding [31.472828313904316]
時間的ビデオグラウンド(TVG)は、与えられたテキストクエリと一致するビデオセグメントをローカライズする。
現在の手法では、ハイテンポラル・インターセクション・オーバ・ユニオン(IoU)を最適化する一方で、ビデオとクエリにおける意味的行動理解を妥協するこの指標に過度に適合することが多い。
Inversion Tasks for TVG (Invert4TVG) は,局部化精度と行動理解を付加データなしで向上する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-08-10T15:38:04Z) - CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - ALBA : Reinforcement Learning for Video Object Segmentation [11.29255792513528]
ゼロショットビデオオブジェクトセグメンテーション(VOS)の課題について考察する。
我々はこれを、オブジェクトの提案を活用し、空間と時間の両方でグループ化に関する共同推論を行うことによって、グループ化問題として扱う。
提案手法はALBAと呼ばれ,従来の3つのベンチマークよりも優れていた。
論文 参考訳(メタデータ) (2020-05-26T20:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。