論文の概要: STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.11730v1
- Date: Thu, 12 Feb 2026 08:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.73443
- Title: STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning
- Title(参考訳): STVG-R1:強化学習によるビデオのインスタンスレベル推論とグラウンド化のインセンティブ化
- Authors: Xiaowen Zhang, Zhi Gao, Licheng Jiao, Lingling Li, Qing Li,
- Abstract要約: 視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。
本稿では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。
本稿では,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
- 参考スコア(独自算出の注目度): 65.36458157092207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In vision-language models (VLMs), misalignment between textual descriptions and visual coordinates often induces hallucinations. This issue becomes particularly severe in dense prediction tasks such as spatial-temporal video grounding (STVG). Prior approaches typically focus on enhancing visual-textual alignment or attaching auxiliary decoders. However, these strategies inevitably introduce additional trainable modules, leading to significant annotation costs and computational overhead. In this work, we propose a novel visual prompting paradigm that avoids the difficult problem of aligning coordinates across modalities. Specifically, we reformulate per-frame coordinate prediction as a compact instance-level identification problem by assigning each object a unique, temporally consistent ID. These IDs are embedded into the video as visual prompts, providing explicit and interpretable inputs to the VLMs. Furthermore, we introduce STVG-R1, the first reinforcement learning framework for STVG, which employs a task-driven reward to jointly optimize temporal accuracy, spatial consistency, and structural format regularization. Extensive experiments on six benchmarks demonstrate the effectiveness of our approach. STVG-R1 surpasses the baseline Qwen2.5-VL-7B by a remarkable margin of 20.9% on m_IoU on the HCSTVG-v2 benchmark, establishing a new state of the art (SOTA). Surprisingly, STVG-R1 also exhibits strong zero-shot generalization to multi-object referring video object segmentation tasks, achieving a SOTA 47.3% J&F on MeViS.
- Abstract(参考訳): 視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。
この問題は、時空間ビデオグラウンド(STVG)のような密集した予測タスクにおいて特に深刻になる。
従来のアプローチでは、視覚的テキストアライメントの強化や補助的なデコーダのアタッチに重点を置いていた。
しかし、これらの戦略は必然的に追加のトレーニング可能なモジュールを導入し、重要なアノテーションコストと計算オーバーヘッドをもたらす。
そこで本研究では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。
具体的には、各オブジェクトに一意かつ時間的に一貫したIDを割り当てることで、フレーム単位の座標予測をコンパクトなインスタンスレベルの識別問題として再構成する。
これらのIDはビデオに視覚的プロンプトとして埋め込まれ、VLMへの明示的で解釈可能な入力を提供する。
さらに,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
6つのベンチマークでの大規模な実験は、我々のアプローチの有効性を実証している。
STVG-R1は、HCSTVG-v2ベンチマークでm_IoUで20.9%の差でQwen2.5-VL-7Bを上回り、新しい最先端(SOTA)を確立した。
驚くべきことに、STVG-R1はマルチオブジェクト参照ビデオオブジェクトセグメンテーションタスクに対して強力なゼロショットの一般化を示し、MeViS上でSOTA 47.3%のJ&Fを達成する。
関連論文リスト
- BREATH-VL: Vision-Language-Guided 6-DoF Bronchoscopy Localization via Semantic-Geometric Fusion [7.382475458362566]
BREATH-VLは,視覚言語モデルからのセマンティックキューと,登録手法からの幾何情報を統合し,正確な6-DoFポーズ推定を行うハイブリッドフレームワークである。
これに基づいて、BREATH-VLは、最先端の視覚のみのローカライゼーション法を精度と一般化の両方で上回り、翻訳誤差を最良性能のベースラインと比較して25.5%削減する。
論文 参考訳(メタデータ) (2026-01-07T09:00:52Z) - VOST-SGG: VLM-Aided One-Stage Spatio-Temporal Scene Graph Generation [18.15310805625469]
VOST-SGGはVLMが支援するワンステージST-SGGフレームワークであり、視覚言語モデルの常識推論機能を統合する。
述語分類を改善するために,視覚,テキスト,空間的手がかりを融合したマルチモーダル特徴バンクを提案する。
提案手法は,ST-SGGにおけるVLM支援型セマンティックプリエントとマルチモーダル機能の統合の有効性を検証し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-05T08:34:06Z) - Thinking With Bounding Boxes: Enhancing Spatio-Temporal Video Grounding via Reinforcement Fine-Tuning [41.30900315121155]
マルチモーダル大言語モデル(LM)は、トレーニング目的のミスアライメントと、標準のビジュアルエンコーダにおける微粒な微粒化アライメントの弱さにより、STVGでは性能が劣る。
本稿では,STVG-o1を提案する。STVG-o1は,市販のMLLMがアーキテクチャ変更なしにリアルタイムのSTVG性能を実現するための最初のフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:21:15Z) - ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。
具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文 参考訳(メタデータ) (2025-03-22T05:04:12Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。