論文の概要: LawDIS: Language-Window-based Controllable Dichotomous Image Segmentation
- arxiv url: http://arxiv.org/abs/2508.01152v1
- Date: Sat, 02 Aug 2025 02:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.732252
- Title: LawDIS: Language-Window-based Controllable Dichotomous Image Segmentation
- Title(参考訳): LawDIS:Language-Window-based Controllable Dichotomous Image Segmentation
- Authors: Xinyu Yan, Meijun Sun, Ge-Peng Ji, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan,
- Abstract要約: LawDIS (LawDIS) は、言語ウインドウをベースとした制御可能なディコトクスイメージセグメンテーションフレームワークである。
我々のフレームワークは、潜伏拡散モデル内の画像条件付きマスク生成タスクとしてdisをリキャストする。
マクロモードでは、ユーザが提供する言語プロンプトに基づいて初期マスクを生成するための言語制御セグメンテーション戦略(LS)を導入する。
マイクロモードでは、ウィンドウ制御リファインメント戦略(WR)がユーザ定義領域のフレキシブルリファインメントを可能にする。
- 参考スコア(独自算出の注目度): 82.00174723923787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LawDIS, a language-window-based controllable dichotomous image segmentation (DIS) framework that produces high-quality object masks. Our framework recasts DIS as an image-conditioned mask generation task within a latent diffusion model, enabling seamless integration of user controls. LawDIS is enhanced with macro-to-micro control modes. Specifically, in macro mode, we introduce a language-controlled segmentation strategy (LS) to generate an initial mask based on user-provided language prompts. In micro mode, a window-controlled refinement strategy (WR) allows flexible refinement of user-defined regions (i.e., size-adjustable windows) within the initial mask. Coordinated by a mode switcher, these modes can operate independently or jointly, making the framework well-suited for high-accuracy, personalised applications. Extensive experiments on the DIS5K benchmark reveal that our LawDIS significantly outperforms 11 cutting-edge methods across all metrics. Notably, compared to the second-best model MVANet, we achieve $F_\beta^\omega$ gains of 4.6\% with both the LS and WR strategies and 3.6\% gains with only the LS strategy on DIS-TE. Codes will be made available at https://github.com/XinyuYanTJU/LawDIS.
- Abstract(参考訳): 高品質なオブジェクトマスクを生成する言語ウインドウに基づく制御可能な2コトマイザ画像分割(DIS)フレームワークであるLawDISを提案する。
本フレームワークは,ユーザ制御のシームレスな統合を実現するために,遅延拡散モデル内の画像条件付きマスク生成タスクとしてdisをリキャストする。
LawDISはマクロ・マイクロ制御モードで拡張されている。
具体的には、マクロモードにおいて、ユーザが提供する言語プロンプトに基づいて初期マスクを生成するための言語制御セグメンテーション戦略(LS)を導入する。
マイクロモードでは、ウィンドウ制御リファインメント戦略(WR)により、初期マスク内のユーザ定義領域(サイズ調整可能なウィンドウ)の柔軟なリファインメントが可能となる。
モードスイッチャーによって調整され、これらのモードは独立または共同で動作可能であり、フレームワークは高精度でパーソナライズされたアプリケーションに適している。
DIS5Kベンチマークの大規模な実験により、我々のLawDISはすべてのメトリクスで11の最先端メソッドを著しく上回っていることが判明した。
特に、第2のベットモデルMVANetと比較して、LS戦略とWR戦略の両方で$F_\beta^\omega$ゲインが4.6\%、dis-TE戦略のみで3.6\%ゲインが得られる。
コードはhttps://github.com/XinyuYanTJU/LawDIS.comで公開される。
関連論文リスト
- Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning [30.590869749117815]
Francaは、最初の完全なオープンソース(データ、コード、重み付け)ビジョン基盤モデルである。
多くの場合、最先端のプロプライエタリモデルのパフォーマンスを上回る。
私たちのコントリビューションは、透明で高性能なビジョンモデルのための新しい標準を確立します。
論文 参考訳(メタデータ) (2025-07-18T17:59:55Z) - OpenSDI: Spotting Diffusion-Generated Images in the Open World [36.96139777755025]
本稿では,オープンワールド設定における拡散生成画像の発見に挑戦するOpenTrainingについて述べる。
オープンデータセット(OpenSDID)と呼ばれる新しいベンチマークを定義した。
Masked Autoencoder (MAE) と Contrastive Language- Image Pretrained (CLIP) を組み合わせた SPM ベースのモデルである MaskCLIP を導入する。
論文 参考訳(メタデータ) (2025-03-25T13:43:16Z) - MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models [87.64417894918506]
この研究は、大規模言語モデルにおける半構造化(あるいはN:M'')のスパーシティを確立する学習可能なプルーニング手法であるMaskLLMを紹介した。
MaskLLMはGumbel Softmaxサンプリングを通じて学習可能な分布としてN:Mパターンを明示的にモデル化する。
論文 参考訳(メタデータ) (2024-09-26T02:37:41Z) - GroupMamba: Efficient Group-Based Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、最近、四次計算の複雑さで長距離依存を捉えることを約束している。
しかし、純粋にSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最先端の性能を達成するために重要な課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image
Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。
提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。
我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-19T07:17:27Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - LevelSet R-CNN: A Deep Variational Method for Instance Segmentation [79.20048372891935]
現在、多くのアートモデルはMask R-CNNフレームワークに基づいている。
本稿では,両世界の長所を結合したR-CNNを提案する。
我々はCOCOおよびCityscapesデータセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-07-30T17:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。