Fugu-MT 論文翻訳(概要): Seg-R1: Segmentation Can Be Surprisingly Simple with Reinforcement Learning

論文の概要: Seg-R1: Segmentation Can Be Surprisingly Simple with Reinforcement Learning

arxiv url: http://arxiv.org/abs/2506.22624v1
Date: Fri, 27 Jun 2025 20:40:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.490496
Title: Seg-R1: Segmentation Can Be Surprisingly Simple with Reinforcement Learning
Title（参考訳）: Seg-R1: 強化学習でセグメント化が驚くほど簡単になる
Authors: Zuyao You, Zuxuan Wu,
Abstract要約: Seg-R1は、大規模マルチモーダルモデルの画素レベルの理解と推論能力を高めるために強化学習を用いた予備的な探索である。我々は,LMMに画素レベルの理解を持たせながら,グループ相対政策最適化をセグメンテーション領域に導入する。 Seg-R1 は純粋に RL ベースの訓練を行い、複雑なモデル修正なしに COD10K 上で.873 S 測定を行う。
参考スコア（独自算出の注目度）: 38.375639439367255
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present Seg-R1, a preliminary exploration of using reinforcement learning (RL) to enhance the pixel-level understanding and reasoning capabilities of large multimodal models (LMMs). Starting with foreground segmentation tasks, specifically camouflaged object detection (COD) and salient object detection (SOD), our approach enables the LMM to generate point and bounding box prompts in the next-token fashion, which are then used to guide SAM2 in producing segmentation masks. We introduce Group Relative Policy Optimization (GRPO) into the segmentation domain, equipping the LMM with pixel-level comprehension through a carefully designed training strategy. Notably, Seg-R1 achieves remarkable performance with purely RL-based training, achieving .873 S-measure on COD10K without complex model modification. Moreover, we found that pure RL training demonstrates strong open-world generalization. Despite being trained solely on foreground segmentation image-mask pairs without text supervision, Seg-R1 achieves impressive zero-shot performance on referring segmentation and reasoning segmentation tasks, with 71.4 cIoU on RefCOCOg test and 56.7 gIoU on ReasonSeg test, outperforming models fully supervised on these datasets.
Abstract（参考訳）: 本稿では,大規模マルチモーダルモデル(LMM)の画素レベルの理解と推論能力を高めるために,強化学習(RL)を用いた予備的な探索を行うSeg-R1を提案する。前景のセグメンテーションタスク、特にカモフラージュされたオブジェクト検出(COD)とサルエントオブジェクト検出(SOD)から始めると、LMMは次のトーケン方式でポイントとバウンディングボックスプロンプトを生成し、セグメンテーションマスクの生成においてSAM2を誘導する。我々は,グループ相対政策最適化(GRPO)をセグメンテーション領域に導入し,慎重に設計したトレーニング戦略を通じて,LMMに画素レベルの理解を持たせる。特に、Seg-R1は純粋なRLベースの訓練で優れた性能を発揮し、複雑なモデル修正なしにCOD10K上で.873のS測定を達成している。さらに、純粋なRLトレーニングは、オープンワールドの強力な一般化を示す。前景のセグメンテーションとイメージマスクのペアのみにテキスト監督なしで訓練されているにもかかわらず、Seg-R1はセグメンテーションと推論セグメンテーションタスクの参照において印象的なゼロショットのパフォーマンスを達成し、RefCOCOgテストでは71.4 cIoU、ReasonSegテストでは56.7 gIoU、これらのデータセットで完全に監督されたモデルよりも優れたパフォーマンスを実現している。

関連論文リスト

RSAgent: Learning to Reason and Act for Text-Guided Segmentation via Multi-Turn Tool Invocations [52.752467948588816]
エージェント型マルチモーダル大規模言語モデル(MLLM)であるRSAgentを提案する。 RSAgentはセグメンテーション・ツールボックスをクエリし、視覚的フィードバックを観察し、歴史的観測を用いて空間仮説を改訂し、ターゲットを再ローカライズし、反復的にマスクを洗練させる。 RSAgentはReasonSegテストで66.5% gIoUのゼロショット性能を達成し、Seg-Zero-7Bを9%改善し、RefCOCOgで81.5% cIoUに達した。
論文参考訳（メタデータ） (2025-12-30T06:50:11Z)
FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。 textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文参考訳（メタデータ） (2025-10-24T10:14:17Z)
First RAG, Second SEG: A Training-Free Paradigm for Camouflaged Object Detection [14.070196423996045]
既存のアプローチは、しばしば重い訓練と大きな計算資源に依存している。 RAG-SEGはCODを2段階に分離し,粗いマスクをプロンプトとして生成するRAG(Retrieval-Augmented Generation)と,改良のためのSAMベースセグメンテーション(SEG)の2つを提案する。 RAG-SEGは、教師なしクラスタリングによってコンパクトな検索データベースを構築し、高速かつ効果的な特徴検索を可能にする。ベンチマークCODデータセットの実験では、RAG-SEGが最先端の手法に匹敵する性能を示した。
論文参考訳（メタデータ） (2025-08-21T07:14:18Z)
LENS: Learning to Segment Anything with Unified Reinforced Reasoning [38.582392908238866]
LENSは拡張性のある強化学習フレームワークで、推論プロセスとセグメンテーションをエンドツーエンドで共同で最適化する。 LENSはRefCOCO、RefCOCO+、RefCOCOgのベンチマークで平均81.2%のcIoUを達成し、GLaMMという強力な微調整法を最大5.6%上回っている。
論文参考訳（メタデータ） (2025-08-19T17:59:53Z)
Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-07-16T17:59:24Z)
Segment Concealed Objects with Incomplete Supervision [63.637733655439334]
不完全なスーパービジョン・コンセサイテッド・オブジェクト(ISCOS)は、周囲の環境にシームレスにブレンドするオブジェクトを分割する。このタスクは、不完全な注釈付きトレーニングデータによって提供される限られた監督のため、非常に難しいままである。本稿では,これらの課題に対処するためのISCOSの統一手法について紹介する。
論文参考訳（メタデータ） (2025-06-10T16:25:15Z)
SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning [26.167394979565454]
画像理解タスクにおいて,マルチモーダルな大規模モデルによるきめ細かい推論を可能にする新しいフレームワークSAM-R1を提案する。提案手法は,マルチモーダル推論モデルのトレーニングにおいて,よりきめ細かいセグメンテーション設定を取り入れた最初の手法である。 3kのトレーニングサンプルだけで、SAM-R1は複数のベンチマークで高いパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-05-28T17:08:28Z)
Cross-Modal Consistency Learning for Sign Language Recognition [92.44927164283641]
既存の事前学習方法は、コンパクトなポーズデータのみに焦点を当てている。クロスモーダル一貫性学習フレームワーク(CCL-SLR)を提案する。 CCL-SLRはRGBから学習し、自己教師付き事前学習に基づいてモダリティをポーズする。
論文参考訳（メタデータ） (2025-03-16T12:34:07Z)
CLISC: Bridging clip and sam by enhanced cam for unsupervised brain tumor segmentation [6.438259303569066]
視覚言語モデル(CLIP)を用いて、分類ネットワークを訓練するための画像レベルの擬似ラベルを得る。 3DセグメンテーションネットワークはSAM由来の擬似ラベルで訓練され、低品質の擬似ラベルは自己学習プロセスでフィルタリングされる。提案手法では,Dice similarity Score (DSC) の平均85.60%が得られた。
論文参考訳（メタデータ） (2025-01-27T17:43:51Z)
PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。 PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文参考訳（メタデータ） (2024-03-21T17:50:47Z)
CLIP Is Also a Good Teacher: A New Learning Framework for Inductive Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文参考訳（メタデータ） (2023-10-03T09:33:47Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
IDEAL: Improved DEnse locAL Contrastive Learning for Semi-Supervised Medical Image Segmentation [3.6748639131154315]
我々は,メートル法学習の概念をセグメンテーションタスクに拡張する。本稿では,高密度画素レベルの特徴量を得るための単純な畳み込みプロジェクションヘッドを提案する。下流タスクに対して,2ストリーム正規化トレーニングを含む双方向正規化機構を考案した。
論文参考訳（メタデータ） (2022-10-26T23:11:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。