論文の概要: RCoT-Seg: Reinforced Chain-of-Thought for Video Reasoning and Segmentation
- arxiv url: http://arxiv.org/abs/2605.07334v1
- Date: Fri, 08 May 2026 06:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.866977
- Title: RCoT-Seg: Reinforced Chain-of-Thought for Video Reasoning and Segmentation
- Title(参考訳): RCoT-Seg:ビデオ推論とセグメンテーションのための強化チェーン
- Authors: Junwei Wen, Deshui Miao, Guangming Lu, Xin Li, Wenjie Pei,
- Abstract要約: Video Reasoningは、人間の意図と時間的ロジックを伝える暗黙の指示に基づいて、対象のオブジェクトをビデオに分割することを目的としている。
既存のMLLMベースの手法では,単純なサンプリングや補助MLLMを用いてフレームを選択した後,[SEG]トークンでマスクを予測する。
RCoT-SegはVRSを時間的ビデオ(TVR)と目標知覚(KTP)に分解するビデオ・オブ・思想のフレームワークである。
- 参考スコア(独自算出の注目度): 48.30592530624143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Reasoning Segmentation (VRS) aims to segment target objects in videos based on implicit instructions that convey human intent and temporal logic. Existing MLLM-based methods predict masks with a [SEG] token after selecting frames via simple sampling or an auxiliary MLLM, where limited supervision and frame-language similarity rules often yield narrow-scope keyframe choices that weaken holistic temporal understanding and lead to brittle localization in complex multi-object scenes. To address these issues, we introduce RCoT-Seg, a video-of-thought framework that factorizes VRS into temporal video reasoning (TVR) and keyframe target perception (KTP), explicitly separating temporal reasoning from spatial perception. Specifically, in the TVR stage, an agentic keyframe selection module, initialized with a curated CoT-start corpus and refined by GRPO under task-aligned rewards, is proposed to generate and reselect the keyframe through self-evaluation, strengthening moment localization and temporal reasoning. In the KTP stage, RCoT-Seg performs high-resolution segmentation on the selected frame and propagates masks with SAM2-based methods across the sequence, replacing heuristic sampling and external selectors while improving spatial precision and inter-frame consistency. Extensive experimental results demonstrate that the proposed RCoT-Seg achieves favorable performance against the state-of-the-art methods. The code and models will be publicly released at https://github.com/Victor-wjw/RCoT-Seg.
- Abstract(参考訳): ビデオ推論セグメンテーション(VRS: Video Reasoning Segmentation)は、人間の意図と時間論理を伝える暗黙の指示に基づいて、対象のオブジェクトをビデオに分割することを目的としている。
既存のMLLMベースの手法は、単純なサンプリングや補助MLLMによってフレームを選択した後、[SEG]トークンでマスクを予測する。
これらの問題に対処するために,VRSを時間的ビデオ推論(TVR)とキーフレーム目標認識(KTP)に分解し,空間的知覚から時間的推論を明確に分離するビデオ・オブ・シント・フレームワークであるRCoT-Segを紹介する。
具体的には、TVRの段階では、エージェントキーフレーム選択モジュールがCoT開始コーパスで初期化され、タスクアライン報酬の下でGRPOによって改良され、自己評価、モーメントローカライゼーションの強化、時間的推論によってキーフレームの生成と再選択が提案されている。
KTPの段階では、RCoT-Segは選択したフレーム上で高分解能セグメンテーションを行い、シークエンスをSAM2ベースの方法で伝播し、空間精度とフレーム間の一貫性を改善しながら、ヒューリスティックサンプリングと外部セレクタを置き換える。
提案したRCoT-Segは,最先端手法に対して良好な性能を示した。
コードとモデルはhttps://github.com/Victor-wjw/RCoT-Seg.comで公開される。
関連論文リスト
- Where to Focus: Query-Modulated Multimodal Keyframe Selection for Long Video Understanding [48.14432643308697]
長いビデオ理解は、マルチモーダルな大規模言語モデルにとって非常に難しい課題です。
Q-Gateは、選択を動的モダリティルーティング問題として扱うプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2026-04-19T13:04:18Z) - VIRST: Video-Instructed Reasoning Assistant for SpatioTemporal Segmentation [6.447274127678917]
Video Video Object (RVOS) は、自然言語による記述に基づいて、対象物をビデオに分割することを目的としている。
VIRST(Video-Instructed Reasoning Assistant for Spatio-Temporal)は,グローバルなビデオ推論と画素レベルのマスク予測を単一のモデルで統合するエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2026-03-28T00:34:15Z) - MomentSeg: Moment-Centric Sampling for Enhanced Video Pixel Understanding [40.37010049965347]
Referring Video Object (RefVOS)は、自然言語記述でガイドされたビデオにターゲットオブジェクトをセグメント化しようとする。
本稿では,時空間接地(TSG)とRefVOSを協調的に最適化し,キーモーメント接地機能を自然に組み込んだ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-10T11:18:21Z) - CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。