論文の概要: FA-Seg: A Fast and Accurate Diffusion-Based Method for Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2506.23323v3
- Date: Tue, 15 Jul 2025 07:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 15:29:04.807858
- Title: FA-Seg: A Fast and Accurate Diffusion-Based Method for Open-Vocabulary Segmentation
- Title(参考訳): FA-Seg:オープン語彙セグメンテーションのための高速かつ高精度拡散法
- Authors: Quang-Huy Che, Vinh-Tiep Nguyen,
- Abstract要約: Open-vocabulary semantic segmentationは、厳密な注釈付きデータセットを必要とせずに、任意のテキストカテゴリからオブジェクトをセグメントすることを目的としている。
本稿では,拡散モデルに基づくオープン語彙セグメンテーションのためのトレーニングフリーフレームワークであるFA-Segを提案する。
- 参考スコア(独自算出の注目度): 1.4525238046020867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary semantic segmentation (OVSS) aims to segment objects from arbitrary text categories without requiring densely annotated datasets. Although contrastive learning based models enable zero-shot segmentation, they often lose fine spatial precision at pixel level, due to global representation bias. In contrast, diffusion-based models naturally encode fine-grained spatial features via attention mechanisms that capture both global context and local details. However, they often face challenges in balancing the computation costs and the quality of the segmentation mask. In this work, we present FA-Seg, a Fast and Accurate training-free framework for open-vocabulary segmentation based on diffusion models. FA-Seg performs segmentation using only a (1+1)-step from a pretrained diffusion model. Moreover, instead of running multiple times for different classes, FA-Seg performs segmentation for all classes at once. To further enhance the segmentation quality, FA-Seg introduces three key components: (i) a dual-prompt mechanism for discriminative, class-aware attention extraction, (ii) a Hierarchical Attention Refinement Method (HARD) that enhances semantic precision via multi-resolution attention fusion, and (iii) a Test-Time Flipping (TTF) scheme designed to improve spatial consistency. Extensive experiments show that FA-Seg achieves state-of-the-art training-free performance, obtaining 43.8% average mIoU across PASCAL VOC, PASCAL Context, and COCO Object benchmarks while maintaining superior inference efficiency. Our results demonstrate that FA-Seg provides a strong foundation for extendability, bridging the gap between segmentation quality and inference efficiency. The source code will be open-sourced after this paper is accepted.
- Abstract(参考訳): Open-vocabulary semantic segmentation (OVSS)は、厳密な注釈付きデータセットを必要とせずに、任意のテキストカテゴリからオブジェクトをセグメントすることを目的としている。
対照的な学習ベースモデルはゼロショットセグメンテーションを可能にするが、大域的な表現バイアスのため、画素レベルでの空間精度が低下することがしばしばある。
対照的に拡散モデルでは、グローバルコンテキストと局所的詳細の両方をキャプチャするアテンション機構を介して、自然に微細な空間的特徴を符号化する。
しかし、計算コストとセグメンテーションマスクの品質のバランスをとる上で、しばしば課題に直面している。
本研究では,拡散モデルに基づくオープン語彙セグメンテーションのための高速かつ高精度なトレーニングフリーフレームワークであるFA-Segを提案する。
FA-Seg は事前訓練された拡散モデルから (1+1) ステップのみを用いてセグメンテーションを行う。
さらに、異なるクラスに対して複数回実行する代わりに、FA-Segはすべてのクラスに対して一度にセグメンテーションを実行する。
セグメンテーションの品質をさらに向上するため、FA-Segは3つの重要なコンポーネントを紹介した。
(i)識別・クラス認識型注意抽出のための二重プロンプト機構
(二)マルチレゾリューション・アテンション・フュージョンによる意味的精度を高める階層的アテンション・リファインメント・メソッド(HARD)
三 空間整合性を改善するためのテストタイム・フリップ(TTF)方式
大規模な実験により、FA-Segは最先端のトレーニングフリーのパフォーマンスを達成し、PASCAL VOC、PASCAL Context、COCO Objectベンチマークで平均43.8%のmIoUを得た。
FA-Segは,セグメンテーション品質と推論効率のギャップを埋める,拡張性のための強力な基盤を提供することを示した。
この論文が受理された後、ソースコードはオープンソースになる。
関連論文リスト
- No time to train! Training-Free Reference-Based Instance Segmentation [15.061599989448867]
本研究は,少数の参照画像のみを備える場合のオブジェクトセグメンテーションの課題について検討する。
我々の重要な洞察は、ファンデーションモデルによって学習された強力なセマンティック・プライドを活用して、参照とターゲット画像の間の対応する領域を特定することである。
対応によって、下流タスクのためのインスタンスレベルのセグメンテーションマスクの自動生成が可能になり、マルチステージのトレーニング不要な方法でアイデアをインスタンス化する。
論文 参考訳(メタデータ) (2025-07-03T16:59:01Z) - Target Semantics Clustering via Text Representations for Robust Universal Domain Adaptation [37.61604558855609]
Universal Domain Adaptation (UniDA)は、ドメインシフトと未知のカテゴリシフトの両方の下で、ソースドメインの知識をターゲットドメインに転送することに焦点を当てている。
現在の手法では、制約のない連続画像表現空間からターゲット領域意味論センターを得るのが一般的である。
本稿では,視覚言語モデルに基づく意味的意味的かつ離散的なテキスト表現空間のセマンティックセンターを探索する。
論文 参考訳(メタデータ) (2025-06-04T03:11:53Z) - Federated Unsupervised Semantic Segmentation [14.64737842208937]
本研究は,教師なしセマンティックイメージ(USS)におけるフェデレートラーニング(FL)の適用について検討する。
FUSSは、完全に分散化されたラベルなしセマンティックセグメンテーショントレーニングを可能にする最初のフレームワークである。
バイナリとマルチクラスのセグメンテーションタスクを含む、ベンチマークと実世界のデータセットの両方の実験は、FUSSがローカルのみのクライアントトレーニングを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-29T09:43:55Z) - Improving Open-Set Semantic Segmentation in 3D Point Clouds by Conditional Channel Capacity Maximization: Preliminary Results [1.1328543389752008]
オープンセットセマンティック(O3S)のためのプラグアンドプレイフレームワークを提案する。
セグメンテーションパイプラインを条件付きマルコフ連鎖としてモデル化することにより、条件付きチャネル容量最大化(3CM)と呼ばれる新しい正規化器項を導出する。
3CMは,エンコーダがよりリッチでラベルに依存した機能を維持することを奨励し,従来見つからなかったカテゴリを識別・分割するネットワークの能力を向上することを示す。
論文 参考訳(メタデータ) (2025-05-09T04:12:26Z) - One-shot In-context Part Segmentation [97.77292483684877]
パートセグメンテーションの課題に取り組むために,One-shot In-context Part (OIParts) フレームワークを提案する。
私たちのフレームワークは、トレーニングのない、フレキシブルで、データ効率のよいパートセグメンテーションに対して、新しいアプローチを提供します。
我々は多種多様な対象カテゴリで顕著なセグメンテーション性能を達成した。
論文 参考訳(メタデータ) (2025-03-03T03:50:54Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - iSeg: An Iterative Refinement-based Framework for Training-free Segmentation [85.58324416386375]
本稿では,自己注意マップを用いた横断注意マップの繰り返し精錬に関する実験的検討を行った。
トレーニング不要セグメンテーションのための効果的な反復改良フレームワークiSegを提案する。
提案したiSegは,mIoUの3.8%の絶対ゲインを達成している。
論文 参考訳(メタデータ) (2024-09-05T03:07:26Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Masked Supervised Learning for Semantic Segmentation [5.177947445379688]
Masked Supervised Learning (MaskSup)は、短いコンテキストと長距離コンテキストの両方をモデル化する効果的なシングルステージ学習パラダイムである。
提案手法は計算効率が良く,平均交叉和(mIoU)において10%向上することを示す。
論文 参考訳(メタデータ) (2022-10-03T13:30:19Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Generalized Few-shot Semantic Segmentation [68.69434831359669]
本稿では,GFS-Seg(Generalized Few-Shot Semantic)と呼ばれる新しいベンチマークを導入する。
GFS-セグにおいて、先行する最先端の一般化が不足していることを示す最初の研究である。
本研究では,1)支援サンプルから共起前の知識を活用すること,2)各クエリ画像の内容に基づいて条件付き情報に動的に拡張することにより,性能を著しく向上するコンテキスト認識型プロトタイプ学習(CAPL)を提案する。
論文 参考訳(メタデータ) (2020-10-11T10:13:21Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。