論文の概要: Moondream Segmentation: From Words to Masks
- arxiv url: http://arxiv.org/abs/2604.02593v1
- Date: Fri, 03 Apr 2026 00:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.251918
- Title: Moondream Segmentation: From Words to Masks
- Title(参考訳): Moondreamのセグメンテーション:言葉からマスクへ
- Authors: Ethan Reid,
- Abstract要約: 視覚精度モデルであるMoondream 3の参照画像セグメンテーション拡張であるMoondreamを提案する。
画像と参照表現が与えられた後、モデルはベクトルパスを自己回帰的にデコードし、信号化されたマスクを最終詳細マスクに反復的に洗練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Moondream Segmentation, a referring image segmentation extension of Moondream 3, a vision-language model. Given an image and a referring expression, the model autoregressively decodes a vector path and iteratively refines the rasterized mask into a final detailed mask. We introduce a reinforcement learning stage that resolves ambiguity in the supervised signal by directly optimizing mask quality. Rollouts from this stage produce coarse-to-ground-truth targets for the refiner. To mitigate evaluation noise from polygon annotations, we release RefCOCO-M, a cleaned RefCOCO validation split with boundary-accurate masks. Moondream Segmentation achieves a cIoU of 80.2% on RefCOCO (val) and 62.6% mIoU on LVIS (val).
- Abstract(参考訳): 視覚言語モデルであるMoondream 3の参照画像セグメンテーション拡張であるMoondream Segmentationを提案する。
画像と参照表現が与えられた後、モデルはベクターパスを自己回帰的にデコードし、ラスタ化マスクを最終詳細マスクに反復的に洗練する。
マスク品質を直接最適化することにより、教師付き信号のあいまいさを解消する強化学習段階を導入する。
この段階からのロールアウトは、精製装置の粗大な目標となる。
ポリゴンアノテーションからの評価ノイズを軽減するために,境界精度マスクで分割したRefCOCO-Mをクリーン化したRefCOCOバリデーションをリリースする。
Moondream Segmentationは80.2%がRefCOCO(val)、62.6%がLVIS(val)である。
関連論文リスト
- GenMask: Adapting DiT for Segmentation via Direct Mask Generation [81.54526445834294]
間接的な適応の代わりに、セグメント化タスクは生成的な方法で直接訓練されるべきである、と我々は主張する。
分割のための極度のノイズレベルと画像生成のための中等度雑音を強調する二元マスクの時間ステップサンプリング戦略を導入する。
GenMaskは,RGB空間における色鮮やかな画像だけでなく,黒と白のセグメンテーションマスクを生成するためのDiTトレインである。
論文 参考訳(メタデータ) (2026-03-25T03:52:05Z) - Mask Consistency Regularization in Object Removal [43.90240963122134]
Mask Consistency Regularization (MCR)は、オブジェクト削除タスクに特化した新しいトレーニング戦略である。
MCRは幻覚とマスク形状バイアスを著しく低減し、物体除去の性能を向上させる。
論文 参考訳(メタデータ) (2025-09-12T14:02:52Z) - HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model [6.641903410779405]
最大32個のトークンを持つセグメンテーションマスクを表すHiMTok(Hierarchical Mask Tokenizer)を提案する。
HiMTokは、コンパクトで粗いマスク表現を可能にし、次世代の予測パラダイムとよく一致している。
分割と視覚能力の進歩的な学習のための3段階のトレーニングレシピを開発し,階層的なマスクロスを特徴とし,より効果的な粗い学習を行う。
論文 参考訳(メタデータ) (2025-03-17T10:29:08Z) - High-Quality Mask Tuning Matters for Open-Vocabulary Segmentation [109.19165503929992]
ここでは,CLIPのマスク分類能力を高めるために,生成されたマスクの代わりに接地トラスマスクを使用するMaskCLIP++を提案する。
低コストの微調整を経て、MaskCLIP++はマルチドメインデータセットのマスク分類性能を大幅に改善した。
我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文 参考訳(メタデータ) (2024-12-16T05:44:45Z) - Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation [38.39055930100405]
オープン語彙セグメンテーションにおいてこれらの課題に対処するための単純かつ効果的な手法であるMask-Adapterを導入する。
提案手法では,提案マスクを直接使用するのに対し,提案マスクから意味的アクティベーションマップを抽出する。
いくつかのゼロショットベンチマークに対する大規模な実験は、提案されたMask-Adapterの性能向上を示す。
論文 参考訳(メタデータ) (2024-12-05T17:42:37Z) - Mask Transfiner for High-Quality Instance Segmentation [95.74244714914052]
高品質で効率的なインスタンスセグメンテーションのためのMask Transfinerを提案する。
当社のアプローチでは, エラーが発生しやすい木ノードを検出し, エラーを並列に自己修正する。
私たちのコードとトレーニングされたモデルは、http://vis.xyz/pub/transfiner.comで公開されます。
論文 参考訳(メタデータ) (2021-11-26T18:58:22Z) - RefineMask: Towards High-Quality Instance Segmentation with Fine-Grained
Features [53.71163467683838]
RefineMaskは、オブジェクトやシーンの高品質なインスタンスセグメンテーションのための新しい方法です。
インスタンス毎のセグメンテーションプロセス中に粒度の細かい機能を多段階的に組み込む。
以前のほとんどのメソッドで過剰にスムースされたオブジェクトの曲がった部分のようなハードケースをセグメンテーションすることに成功します。
論文 参考訳(メタデータ) (2021-04-17T15:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。