論文の概要: LENS: Learning to Segment Anything with Unified Reinforced Reasoning
- arxiv url: http://arxiv.org/abs/2508.14153v1
- Date: Tue, 19 Aug 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.236042
- Title: LENS: Learning to Segment Anything with Unified Reinforced Reasoning
- Title(参考訳): LENS: 統一Reinforceed Reasoningで何かのセグメンテーションを学ぶ
- Authors: Lianghui Zhu, Bin Ouyang, Yuxuan Zhang, Tianheng Cheng, Rui Hu, Haocheng Shen, Longjin Ran, Xiaoxin Chen, Li Yu, Wenyu Liu, Xinggang Wang,
- Abstract要約: LENSは拡張性のある強化学習フレームワークで、推論プロセスとセグメンテーションをエンドツーエンドで共同で最適化する。
LENSはRefCOCO、RefCOCO+、RefCOCOgのベンチマークで平均81.2%のcIoUを達成し、GLaMMという強力な微調整法を最大5.6%上回っている。
- 参考スコア(独自算出の注目度): 38.582392908238866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-prompted image segmentation enables fine-grained visual understanding and is critical for applications such as human-computer interaction and robotics. However, existing supervised fine-tuning methods typically ignore explicit chain-of-thought (CoT) reasoning at test time, which limits their ability to generalize to unseen prompts and domains. To address this issue, we introduce LENS, a scalable reinforcement-learning framework that jointly optimizes the reasoning process and segmentation in an end-to-end manner. We propose unified reinforcement-learning rewards that span sentence-, box-, and segment-level cues, encouraging the model to generate informative CoT rationales while refining mask quality. Using a publicly available 3-billion-parameter vision-language model, i.e., Qwen2.5-VL-3B-Instruct, LENS achieves an average cIoU of 81.2% on the RefCOCO, RefCOCO+, and RefCOCOg benchmarks, outperforming the strong fine-tuned method, i.e., GLaMM, by up to 5.6%. These results demonstrate that RL-driven CoT reasoning serves as a robust prior for text-prompted segmentation and offers a practical path toward more generalizable Segment Anything models. Code is available at https://github.com/hustvl/LENS.
- Abstract(参考訳): テキストプロップ画像のセグメンテーションは、きめ細かい視覚的理解を可能にし、人間とコンピュータのインタラクションやロボティクスといった応用に不可欠である。
しかし、既存の教師付き微調整手法は、テスト時に明示的なチェーン・オブ・シント(CoT)推論を無視するのが一般的であり、これは目に見えないプロンプトやドメインに一般化する能力を制限する。
この問題に対処するため、我々は、エンドツーエンドで推論プロセスとセグメンテーションを共同で最適化するスケーラブルな強化学習フレームワークであるLENSを紹介した。
本研究では,文,ボックス,セグメントレベルにまたがる統合強化学習報酬を提案する。
Qwen2.5-VL-3B-インストラクト(英語版)と呼ばれる3ビリオンパラメトリック・ビジョン言語モデルを用いて、LENSはRefCOCO、RefCOCO+、RefCOCOgベンチマークで平均81.2%のcIoUを達成する。
これらの結果は、RL駆動のCoT推論がテキストプロンプトセグメンテーションの頑健な先行として機能し、より一般化可能なセグメンテーションモデルへの実践的な経路を提供することを示している。
コードはhttps://github.com/hustvl/LENS.comで入手できる。
関連論文リスト
- SegDAC: Segmentation-Driven Actor-Critic for Visual Reinforcement Learning [56.73588655252369]
視覚一般化のためのRL-Driven Actor-Critic法であるSegDACを提案する。
SegDACはオブジェクト中心の分解にSegment Anything(SAM)を使用し、YOLO-Worldはテキストプロンプトを通じてセグメンテーションを意味的にグラウンドする。
Maniskill3を用いた視覚一般化ベンチマークでSegDACを評価することにより,SegDACが視覚一般化を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-08-12T20:16:54Z) - MSGCoOp: Multiple Semantic-Guided Context Optimization for Few-Shot Learning [0.8249694498830561]
本稿では,マルチセマンティック・ガイド型コンテキスト最適化(MSGCoOp)フレームワークを提案する。
我々のアプローチは、並列学習可能なコンテキストベクトルのアンサンブルを利用して、多様な意味的側面をキャプチャする。
11のベンチマークデータセットの実験により、MSGCoOpはベース・ツー・ノーベルの一般化の性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-07-29T13:15:09Z) - Enhancing Spatial Reasoning in Vision-Language Models via Chain-of-Thought Prompting and Reinforcement Learning [0.42855555838080844]
本研究では,視覚言語モデル(VLM)の空間的推論能力について,Chain-of-Thoughtプロンプトと強化学習を通して検討した。
モデルが解答の前に推論ステップを生成する単純なCoT形式は、モデルの本来の性能を損なう可能性がある。
対照的に、シーングラフ(SceneGraph CoT)に基づく構造化マルチステージプロンプトは空間推論の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-06T10:51:12Z) - Seg-R1: Segmentation Can Be Surprisingly Simple with Reinforcement Learning [38.375639439367255]
Seg-R1は、大規模マルチモーダルモデルの画素レベルの理解と推論能力を高めるために強化学習を用いた予備的な探索である。
我々は,LMMに画素レベルの理解を持たせながら,グループ相対政策最適化をセグメンテーション領域に導入する。
Seg-R1 は純粋に RL ベースの訓練を行い、複雑なモデル修正なしに COD10K 上で.873 S 測定を行う。
論文 参考訳(メタデータ) (2025-06-27T20:40:45Z) - Cyclic Contrastive Knowledge Transfer for Open-Vocabulary Object Detection [11.497620257835964]
我々は、余分な監督なしに訓練されたCCKT-Detを提案する。
提案フレームワークは,視覚言語モデル(VLM)から抽出した言語クエリと視覚領域の特徴から,循環的かつ動的に知識を伝達する。
CCKT-Detは、VLMの規模が大きくなるにつれて常に性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-14T02:04:28Z) - Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement [52.66700314820547]
Seg-Zeroは、顕著な一般化可能性を示し、認知的強化を通じて明確な連鎖推論を導出する新しいフレームワークである。
Seg-ZeroはGRPOによる強化学習と明確な推論データなしでのみ訓練される。
実験の結果、Seg-Zero-7BはReasonSegベンチマークで57.5のゼロショット性能を達成し、以前のLISA-7Bを18%上回った。
論文 参考訳(メタデータ) (2025-03-09T08:48:51Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Gramian Attention Heads are Strong yet Efficient Vision Learners [26.79263390835444]
複数のヘッダ分類器(e, classification head)を組み込むことで表現性を向上する新しいアーキテクチャ設計を提案する。
本手法では,資源オーバーヘッドを最小に抑えつつ,複数の軽量ヘッドを強化するために,一対の特徴的類似性を利用したアグリゲーションを用いる。
われわれのモデルは最終的に、ImageNet-1Kの精度の細かいトレードオフに関して、最先端のCNNやViTを上回ることになる。
論文 参考訳(メタデータ) (2023-10-25T09:08:58Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。