論文の概要: Seg-R1: Segmentation Can Be Surprisingly Simple with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.22624v1
- Date: Fri, 27 Jun 2025 20:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.490496
- Title: Seg-R1: Segmentation Can Be Surprisingly Simple with Reinforcement Learning
- Title(参考訳): Seg-R1: 強化学習でセグメント化が驚くほど簡単になる
- Authors: Zuyao You, Zuxuan Wu,
- Abstract要約: Seg-R1は、大規模マルチモーダルモデルの画素レベルの理解と推論能力を高めるために強化学習を用いた予備的な探索である。
我々は,LMMに画素レベルの理解を持たせながら,グループ相対政策最適化をセグメンテーション領域に導入する。
Seg-R1 は純粋に RL ベースの訓練を行い、複雑なモデル修正なしに COD10K 上で.873 S 測定を行う。
- 参考スコア(独自算出の注目度): 38.375639439367255
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Seg-R1, a preliminary exploration of using reinforcement learning (RL) to enhance the pixel-level understanding and reasoning capabilities of large multimodal models (LMMs). Starting with foreground segmentation tasks, specifically camouflaged object detection (COD) and salient object detection (SOD), our approach enables the LMM to generate point and bounding box prompts in the next-token fashion, which are then used to guide SAM2 in producing segmentation masks. We introduce Group Relative Policy Optimization (GRPO) into the segmentation domain, equipping the LMM with pixel-level comprehension through a carefully designed training strategy. Notably, Seg-R1 achieves remarkable performance with purely RL-based training, achieving .873 S-measure on COD10K without complex model modification. Moreover, we found that pure RL training demonstrates strong open-world generalization. Despite being trained solely on foreground segmentation image-mask pairs without text supervision, Seg-R1 achieves impressive zero-shot performance on referring segmentation and reasoning segmentation tasks, with 71.4 cIoU on RefCOCOg test and 56.7 gIoU on ReasonSeg test, outperforming models fully supervised on these datasets.
- Abstract(参考訳): 本稿では,大規模マルチモーダルモデル(LMM)の画素レベルの理解と推論能力を高めるために,強化学習(RL)を用いた予備的な探索を行うSeg-R1を提案する。
前景のセグメンテーションタスク、特にカモフラージュされたオブジェクト検出(COD)とサルエントオブジェクト検出(SOD)から始めると、LMMは次のトーケン方式でポイントとバウンディングボックスプロンプトを生成し、セグメンテーションマスクの生成においてSAM2を誘導する。
我々は,グループ相対政策最適化(GRPO)をセグメンテーション領域に導入し,慎重に設計したトレーニング戦略を通じて,LMMに画素レベルの理解を持たせる。
特に、Seg-R1は純粋なRLベースの訓練で優れた性能を発揮し、複雑なモデル修正なしにCOD10K上で.873のS測定を達成している。
さらに、純粋なRLトレーニングは、オープンワールドの強力な一般化を示す。
前景のセグメンテーションとイメージマスクのペアのみにテキスト監督なしで訓練されているにもかかわらず、Seg-R1はセグメンテーションと推論セグメンテーションタスクの参照において印象的なゼロショットのパフォーマンスを達成し、RefCOCOgテストでは71.4 cIoU、ReasonSegテストでは56.7 gIoU、これらのデータセットで完全に監督されたモデルよりも優れたパフォーマンスを実現している。
関連論文リスト
- Segment Concealed Objects with Incomplete Supervision [63.637733655439334]
不完全なスーパービジョン・コンセサイテッド・オブジェクト(ISCOS)は、周囲の環境にシームレスにブレンドするオブジェクトを分割する。
このタスクは、不完全な注釈付きトレーニングデータによって提供される限られた監督のため、非常に難しいままである。
本稿では,これらの課題に対処するためのISCOSの統一手法について紹介する。
論文 参考訳(メタデータ) (2025-06-10T16:25:15Z) - SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning [26.167394979565454]
画像理解タスクにおいて,マルチモーダルな大規模モデルによるきめ細かい推論を可能にする新しいフレームワークSAM-R1を提案する。
提案手法は,マルチモーダル推論モデルのトレーニングにおいて,よりきめ細かいセグメンテーション設定を取り入れた最初の手法である。
3kのトレーニングサンプルだけで、SAM-R1は複数のベンチマークで高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-05-28T17:08:28Z) - Cross-Modal Consistency Learning for Sign Language Recognition [92.44927164283641]
既存の事前学習方法は、コンパクトなポーズデータのみに焦点を当てている。
クロスモーダル一貫性学習フレームワーク(CCL-SLR)を提案する。
CCL-SLRはRGBから学習し、自己教師付き事前学習に基づいてモダリティをポーズする。
論文 参考訳(メタデータ) (2025-03-16T12:34:07Z) - CLISC: Bridging clip and sam by enhanced cam for unsupervised brain tumor segmentation [6.438259303569066]
視覚言語モデル(CLIP)を用いて、分類ネットワークを訓練するための画像レベルの擬似ラベルを得る。
3DセグメンテーションネットワークはSAM由来の擬似ラベルで訓練され、低品質の擬似ラベルは自己学習プロセスでフィルタリングされる。
提案手法では,Dice similarity Score (DSC) の平均85.60%が得られた。
論文 参考訳(メタデータ) (2025-01-27T17:43:51Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - IDEAL: Improved DEnse locAL Contrastive Learning for Semi-Supervised
Medical Image Segmentation [3.6748639131154315]
我々は,メートル法学習の概念をセグメンテーションタスクに拡張する。
本稿では,高密度画素レベルの特徴量を得るための単純な畳み込みプロジェクションヘッドを提案する。
下流タスクに対して,2ストリーム正規化トレーニングを含む双方向正規化機構を考案した。
論文 参考訳(メタデータ) (2022-10-26T23:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。