論文の概要: GenSeg-R1: RL-Driven Vision-Language Grounding for Fine-Grained Referring Segmentation
- arxiv url: http://arxiv.org/abs/2602.09701v1
- Date: Tue, 10 Feb 2026 11:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.517313
- Title: GenSeg-R1: RL-Driven Vision-Language Grounding for Fine-Grained Referring Segmentation
- Title(参考訳): GenSeg-R1:RL-Driven Vision-Language Grounding for Fine-Grained Referring Segmentation
- Authors: Sandesh Hegde, Jaison Saji Chacko, Debarshi Banerjee, Uma Mahesh,
- Abstract要約: 分離された因果分離パイプラインを用いて,詳細な参照画像セグメンテーションについて検討した。
視覚言語モデル(VLM)は、画像と自然言語クエリを受信し、シーンの理由を判断し、構造化された空間的プロンプトを出力する。
フリーズプロンプト可能なセグメンタ(SAM2)はこれらのプロンプトを高品質なマスクに変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study fine-grained referring image segmentation via a decoupled reason-then-segment pipeline. A vision-language model (VLM) receives an image and a natural-language query, reasons about the scene, and emits structured spatial prompts: a bounding box plus two interior keypoints for every referred instance. A frozen promptable segmenter (SAM 2) converts these prompts into high-quality masks. Within our GenSeg-R1 framework we finetune Qwen3-VL models (4B and 8B parameters) using Group Relative Policy Optimization (GRPO), requiring no supervised reasoning-chain annotations. On RefCOCOg validation our best model (GenSeg-R1-8B) achieves 0.7127 cIoU and 0.7382 mIoU, substantially outperforming the corresponding Qwen3-VL Instruct baselines (+15.3 and +21.9 points, respectively) and surpassing Seg-Zero-7B [3] by +3.3 cIoU under identical evaluation. We further introduce GenSeg-R1-G, a variant trained on GRefCOCO [9] with a SAM 2 in-the-loop reward that directly optimizes mask quality. On GRefCOCO validation GenSeg-R1-G achieves 76.69% target mIoU with 82.40% accuracy on negative (no-target) prompts, substantially outperforming Seg-R1-7B and Seg-Zero-7B, which lack no-target detection capability. On ReasonSeg test, GenSeg-R1-4B reaches 68.40% mIoU, surpassing Seg-Zero-7B by +7.0 and Seg-R1-7B by +10.7 points.
- Abstract(参考訳): 分離された因果分離パイプラインを用いて,詳細な参照画像セグメンテーションについて検討した。
視覚言語モデル(VLM)は、画像と自然言語クエリを受信し、シーンに関する理由と構造化された空間的プロンプトを出力する。
フリーズプロンプト可能なセグメンタ(SAM2)はこれらのプロンプトを高品質なマスクに変換する。
GenSeg-R1フレームワーク内では、グループ相対ポリシー最適化(GRPO)を使用してQwen3-VLモデル(4Bと8Bのパラメータ)を微調整しています。
RefCOCOgの検証において、最良のモデル(GenSeg-R1-8B)は0.7127 cIoUと0.7382 mIoUを達成し、対応するQwen3-VLインストラクトベースライン(+15.3および+21.9点)をほぼ上回り、Seg-Zero-7B[3]を+3.3 cIoUで上回ります。
我々はさらに,GRefCOCO[9]でトレーニングされたGenSeg-R1-Gを紹介した。
GRefCO検証ではGenSeg-R1-Gが76.69%の目標mIoUを82.40%の精度で達成し、Seg-R1-7BとSeg-Zero-7Bを実質的に上回っている。
ReasonSegテストでは、GenSeg-R1-4Bは68.40% mIoUに達し、Seg-Zero-7Bを+7.0、Seg-R1-7Bを+10.7ポイント上回る。
関連論文リスト
- RSAgent: Learning to Reason and Act for Text-Guided Segmentation via Multi-Turn Tool Invocations [52.752467948588816]
エージェント型マルチモーダル大規模言語モデル(MLLM)であるRSAgentを提案する。
RSAgentはセグメンテーション・ツールボックスをクエリし、視覚的フィードバックを観察し、歴史的観測を用いて空間仮説を改訂し、ターゲットを再ローカライズし、反復的にマスクを洗練させる。
RSAgentはReasonSegテストで66.5% gIoUのゼロショット性能を達成し、Seg-Zero-7Bを9%改善し、RefCOCOgで81.5% cIoUに達した。
論文 参考訳(メタデータ) (2025-12-30T06:50:11Z) - LENS: Learning to Segment Anything with Unified Reinforced Reasoning [38.582392908238866]
LENSは拡張性のある強化学習フレームワークで、推論プロセスとセグメンテーションをエンドツーエンドで共同で最適化する。
LENSはRefCOCO、RefCOCO+、RefCOCOgのベンチマークで平均81.2%のcIoUを達成し、GLaMMという強力な微調整法を最大5.6%上回っている。
論文 参考訳(メタデータ) (2025-08-19T17:59:53Z) - Seg-R1: Segmentation Can Be Surprisingly Simple with Reinforcement Learning [38.375639439367255]
Seg-R1は、大規模マルチモーダルモデルの画素レベルの理解と推論能力を高めるために強化学習を用いた予備的な探索である。
我々は,LMMに画素レベルの理解を持たせながら,グループ相対政策最適化をセグメンテーション領域に導入する。
Seg-R1 は純粋に RL ベースの訓練を行い、複雑なモデル修正なしに COD10K 上で.873 S 測定を行う。
論文 参考訳(メタデータ) (2025-06-27T20:40:45Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Understanding R1-Zero-Like Training: A Critical Perspective [73.25430192337235]
ベースモデルとRLの2つのコアコンポーネントを分析し,R1-Zeroライクなトレーニングを批判的に検討した。
本稿では,DeepSeek-V3-Baseを含む幅広いベースモデルについて検討し,事前学習特性がRL性能に与える影響について考察する。
AIME 2024では7Bベースモデルで43.3%の精度を達成できる最小限のR1-Zeroレシピを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:14Z) - Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement [52.66700314820547]
Seg-Zeroは、顕著な一般化可能性を示し、認知的強化を通じて明確な連鎖推論を導出する新しいフレームワークである。
Seg-ZeroはGRPOによる強化学習と明確な推論データなしでのみ訓練される。
実験の結果、Seg-Zero-7BはReasonSegベンチマークで57.5のゼロショット性能を達成し、以前のLISA-7Bを18%上回った。
論文 参考訳(メタデータ) (2025-03-09T08:48:51Z) - SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation [11.243400478302771]
Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。
アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:02:25Z) - Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training [79.27663870280038]
Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-04T18:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。