論文の概要: FlowDIS: Language-Guided Dichotomous Image Segmentation with Flow Matching
- arxiv url: http://arxiv.org/abs/2605.05077v2
- Date: Tue, 12 May 2026 12:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.712924
- Title: FlowDIS: Language-Guided Dichotomous Image Segmentation with Flow Matching
- Title(参考訳): FlowDIS:フローマッチングを用いた言語誘導ディコトクス画像分割
- Authors: Andranik Sargsyan, Shant Navasardyan,
- Abstract要約: Dichotomous Image (DIS) は精度の高いセグメンテーションモデルのトレーニングと評価の標準タスクとなっている。
本稿では,フローマッチングフレームワーク上に構築された新しいディコトモス画像分割手法であるFlowDISを提案する。
本手法は,言語指導と非言語指導の両面において,最先端の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 12.010992958404364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate image segmentation is essential for modern computer vision applications such as image editing, autonomous driving, and medical image analysis. In recent years, Dichotomous Image Segmentation (DIS) has become a standard task for training and evaluating highly accurate segmentation models. Existing DIS approaches often fail to preserve fine-grained details or fully capture the semantic structure of the foreground. To address these challenges, we present FlowDIS, a novel dichotomous image segmentation method built on the flow matching framework, which learns a time-dependent vector field to transport the image distribution to the corresponding mask distribution, optionally conditioned on a text prompt. Moreover, with our Position-Aware Instance Pairing (PAIP) training strategy, FlowDIS offers strong controllability through text prompts, enabling precise, pixel-level object segmentation. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art approaches both with and without language guidance. Compared with the best prior DIS method, FlowDIS achieves a 5.5% higher $F_β^ω$ measure and 43% lower MAE ($\mathcal{M}$) on the DIS-TE test set. The code is available at: https://github.com/Picsart-AI-Research/FlowDIS
- Abstract(参考訳): 正確な画像分割は、画像編集、自律運転、医療画像解析などの現代のコンピュータビジョンアプリケーションに不可欠である。
近年,Dichotomous Image Segmentation (DIS) は高精度セグメンテーションモデルの訓練と評価の標準課題となっている。
既存の DIS アプローチは、細かな詳細を保存したり、フォアグラウンドのセマンティック構造を完全にキャプチャするのに失敗することが多い。
これらの課題に対処するため,フローマッチングフレームワーク上に構築された新しい二調画像分割手法であるFlowDISを提案し,テキストプロンプトで任意に条件付きで,画像分布を対応するマスク分布に転送する時間依存ベクトル場を学習する。
さらに、位置対応インスタンスペアリング(PAIP)トレーニング戦略により、FlowDISはテキストプロンプトを通じて強力な制御性を提供し、正確なピクセルレベルのオブジェクトセグメンテーションを可能にします。
大規模な実験により,本手法は言語指導と非言語指導の両方において,最先端のアプローチを著しく上回っていることが示された。
最上位のDI法と比較すると、FlowDISはF_β^ω$を5.5%高く、DI-TEテストセットでは43%低いMAE(\mathcal{M}$)を達成している。
コードは、https://github.com/Picsart-AI-Research/FlowDISで入手できる。
関連論文リスト
- GS: Generative Segmentation via Label Diffusion [59.380173266566715]
言語駆動のイメージセグメンテーションは、自然言語表現に対応する画像の領域を分割するモデルを必要とする、視覚言語理解の基本的なタスクである。
近年の拡散モデルがこの領域に導入されているが、既存のアプローチは画像中心のままである。
生成タスクとしてセグメンテーション自体を定式化する新しいフレームワークであるGS(Generative Label)を提案する。
実験の結果,GSは既存の差別的・拡散的手法を著しく上回り,言語駆動セグメンテーションのための新たな最先端技術が確立された。
論文 参考訳(メタデータ) (2025-08-27T16:28:15Z) - AutoMiSeg: Automatic Medical Image Segmentation via Test-Time Adaptation of Foundation Models [11.00876772668728]
本稿では,視覚言語とセグメンテーション基礎モデルを組み合わせたゼロショット自動セグメンテーションパイプラインを提案する。
我々のパイプラインは7つの多様な医用画像データセットに基づいて評価され、有望な結果を示す。
論文 参考訳(メタデータ) (2025-05-23T14:07:21Z) - Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding [39.73180294057053]
画像特徴のあるフレーズプロンプトを動的に更新するために,Diffusion UNet内の抽出帰納的フレーズアダプタ(EIPA)バイパスを提案する。
また,マルチレベル相互集約(MLMA)モジュールを設計し,複数レベル画像とフレーズ特徴を相互に融合してセグメンテーションの洗練を図る。
論文 参考訳(メタデータ) (2024-09-12T17:48:22Z) - FlowSDF: Flow Matching for Medical Image Segmentation Using Distance Transforms [60.195642571004804]
本稿では,セグメンテーションマスクの暗黙分布を表現するために,画像誘導型条件付きフローマッチングフレームワークであるFlowSDFを紹介する。
本フレームワークは,セグメンテーションマスクの正確なサンプリングと関連する統計指標の計算を可能にする。
論文 参考訳(メタデータ) (2024-05-28T11:47:12Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [49.80911683739506]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Emergent Correspondence from Image Diffusion [56.29904609646015]
我々は,画像拡散モデルにおいて,明確な監督なしに対応が現れることを示す。
画像の特徴として拡散ネットワーク(DIFT)からこの暗黙の知識を抽出する戦略を提案する。
DIFTは、セマンティック、幾何学的、時間的対応の識別において、弱い教師付き手法と競合するオフ・ザ・シェルフの特徴の両方より優れている。
論文 参考訳(メタデータ) (2023-06-06T17:33:19Z) - Iterative, Deep Synthetic Aperture Sonar Image Segmentation [21.319490900396474]
SAS画像セグメンテーションのための非教師なし学習フレームワークIterative Deep Unsupervised (IDUS)を提案する。
IDUSは,1)ディープネットワークのクラス割り当てを推定する,2)ディープネットワークからの低レベルの画像特徴をスーパーピクセルにクラスタ化する,3)スーパーピクセルをクラス割り当てにクラスタ化する,4)ディープネットワーク予測の損失バックプロパゲーションに擬似ラベルを使用する,の4つのステップに分けることができる。
SAS画像セグメンテーションのための現実的なベンチマークデータセットにおけるIDUSと最先端手法の比較は,提案手法の利点を実証するものである。
論文 参考訳(メタデータ) (2022-03-28T20:41:24Z) - Modeling the Probabilistic Distribution of Unlabeled Data forOne-shot
Medical Image Segmentation [40.41161371507547]
我々は1ショットの脳磁気共鳴画像(MRI)画像分割のためのデータ拡張法を開発した。
提案手法は,MRI画像1枚(atlas)とラベルなし画像数枚のみを利用する。
本手法は最先端のワンショット医療セグメンテーション法より優れている。
論文 参考訳(メタデータ) (2021-02-03T12:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。