論文の概要: Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement
- arxiv url: http://arxiv.org/abs/2503.06520v1
- Date: Sun, 09 Mar 2025 08:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:13.096538
- Title: Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement
- Title(参考訳): Seg-Zero: Reasoning-Chain- Guided Segmentation by Cognitive Reinforcement
- Authors: Yuqi Liu, Bohao Peng, Zhisheng Zhong, Zihao Yue, Fanbin Lu, Bei Yu, Jiaya Jia,
- Abstract要約: Seg-Zeroは、顕著な一般化可能性を示し、認知的強化を通じて明確な連鎖推論を導出する新しいフレームワークである。
Seg-ZeroはGRPOによる強化学習と明確な推論データなしでのみ訓練される。
実験の結果、Seg-Zero-7BはReasonSegベンチマークで57.5のゼロショット性能を達成し、以前のLISA-7Bを18%上回った。
- 参考スコア(独自算出の注目度): 52.66700314820547
- License:
- Abstract: Traditional methods for reasoning segmentation rely on supervised fine-tuning with categorical labels and simple descriptions, limiting its out-of-domain generalization and lacking explicit reasoning processes. To address these limitations, we propose Seg-Zero, a novel framework that demonstrates remarkable generalizability and derives explicit chain-of-thought reasoning through cognitive reinforcement. Seg-Zero introduces a decoupled architecture consisting of a reasoning model and a segmentation model. The reasoning model interprets user intentions, generates explicit reasoning chains, and produces positional prompts, which are subsequently used by the segmentation model to generate precious pixel-level masks. We design a sophisticated reward mechanism that integrates both format and accuracy rewards to effectively guide optimization directions. Trained exclusively via reinforcement learning with GRPO and without explicit reasoning data, Seg-Zero achieves robust zero-shot generalization and exhibits emergent test-time reasoning capabilities. Experiments show that Seg-Zero-7B achieves a zero-shot performance of 57.5 on the ReasonSeg benchmark, surpassing the prior LISA-7B by 18\%. This significant improvement highlights Seg-Zero's ability to generalize across domains while presenting an explicit reasoning process. Code is available at https://github.com/dvlab-research/Seg-Zero.
- Abstract(参考訳): セグメンテーションの伝統的な手法は、分類ラベルと単純な記述による教師付き微調整に依存しており、領域外一般化を制限し、明示的な推論過程を欠いている。
これらの制約に対処するため、認知的強化を通じて、顕著な一般化可能性を示し、明確な連鎖推論を導出する新しいフレームワークであるSeg-Zeroを提案する。
Seg-Zeroは、推論モデルとセグメンテーションモデルからなる分離アーキテクチャを導入している。
推論モデルは、ユーザの意図を解釈し、明示的な推論連鎖を生成し、位置プロンプトを生成し、その後、セグメンテーションモデルによって貴重なピクセルレベルのマスクを生成する。
我々は、最適化方向を効果的に導くために、形式と精度の両方の報酬を統合する洗練された報酬機構を設計する。
GRPOによる強化学習と明示的な推論データなしでのみ訓練されたSeg-Zeroは、堅牢なゼロショットの一般化を実現し、緊急なテスト時間推論能力を示す。
実験の結果、Seg-Zero-7BはReasonSegベンチマークで57.5のゼロショット性能を達成し、以前のLISA-7Bを18%上回る結果となった。
この大幅な改善は、Seg-Zeroが明示的な推論プロセスを示しながら、ドメインをまたいで一般化する能力を強調している。
コードはhttps://github.com/dvlab-research/Seg-Zero.comで入手できる。
関連論文リスト
- Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models [64.67721492968941]
ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型アテンションを提案する。
我々のゴールは、CLIPモデルの一般化を維持し、敵の堅牢性を高めることである。
本手法は,現在の最先端技術よりも9.58%の精度でゼロショット精度を向上する。
論文 参考訳(メタデータ) (2024-10-29T07:15:09Z) - AlignZeg: Mitigating Objective Misalignment for Zero-shot Semantic Segmentation [123.88875931128342]
ゼロショット視覚認識の性能を損なう深刻な問題は、客観的なミスアライメントと呼ばれる。
セグメンテーションパイプラインを包括的に改善したAlignZegという新しいアーキテクチャを提案する。
実験によると、AlignZegはゼロショットセマンティックセマンティックセグメンテーションを著しく強化している。
論文 参考訳(メタデータ) (2024-04-08T16:51:33Z) - Beyond Pixels: Enhancing LIME with Hierarchical Features and Segmentation Foundation Models [2.355460994057843]
LIMEは、ビジョン機械学習モデルにおける意思決定プロセスを解き放つための人気のあるXAIフレームワークである。
本稿では,DSEG-LIME(Data-Driven LIME)フレームワークについて紹介する。
以上の結果から,DSEGは事前学習したImageNetモデルにおいて,XAIの指標よりも優れていた。
論文 参考訳(メタデータ) (2024-03-12T15:13:12Z) - HierarchicalContrast: A Coarse-to-Fine Contrastive Learning Framework
for Cross-Domain Zero-Shot Slot Filling [4.1940152307593515]
ドメイン間のゼロショットスロットフィリングは、モデルを学ぶためにソースドメイン知識を活用する上で重要な役割を果たす。
既存のゼロショットスロット充填法では、ターゲット領域での一般化能力が制限されている。
ゼロショットスロットフィリングのための新しい階層型コントラスト学習フレームワーク(HiCL)を提案する。
論文 参考訳(メタデータ) (2023-10-13T14:23:33Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z) - Zero-Shot Semantic Segmentation via Spatial and Multi-Scale Aware Visual
Class Embedding [0.0]
言語モデルなしゼロショットセマンティックセマンティックセマンティクスフレームワークSM-VCENet(Spatial and Multi-scale aware Visual Class Embedding Network)を提案する。
実験では、SM-VCENetはゼロショットセマンティックセマンティックセグメンテーションを相対的なマージンで上回ります。
論文 参考訳(メタデータ) (2021-11-30T07:39:19Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。