論文の概要: FastSeg: Efficient Training-Free Open-Vocabulary Segmentation via Hierarchical Attention Refinement Method
- arxiv url: http://arxiv.org/abs/2506.23323v1
- Date: Sun, 29 Jun 2025 16:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.831059
- Title: FastSeg: Efficient Training-Free Open-Vocabulary Segmentation via Hierarchical Attention Refinement Method
- Title(参考訳): FastSeg: 階層的アテンションリファインメント法による効率的な学習自由なオープンボキャブラリセグメンテーション
- Authors: Quang-Huy Che, Vinh-Tiep Nguyen,
- Abstract要約: Open-vocabulary semantic segmentationは、厳密な注釈付きデータセットを必要とせずに、任意のテキストカテゴリからオブジェクトをセグメントすることを目的としている。
FastSegはトレーニング不要のフレームワークで、事前訓練された拡散モデルの逆過程の(1+1)ステップのみを持つ。
最先端のトレーニングフリーのパフォーマンスを実現し、PASCAL VOC、PASCAL Context、COCO Objectベンチマークで平均43.8%のmIoUが得られる。
- 参考スコア(独自算出の注目度): 1.4525238046020867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary semantic segmentation (OVSS) aims to segment objects from arbitrary text categories without requiring densely annotated datasets. Although contrastive learning based models enable zero-shot segmentation, they often lose fine spatial precision at pixel level, due to global representation bias. In contrast, diffusion-based models naturally encode fine-grained spatial features via attention mechanisms that capture both global context and local details. However, they often face challenges in balancing the number of iterations with the quality of the segmentation. In this work, we propose FastSeg, a novel and efficient training-free framework with only (1+1)-step of reverse process of a pretrained diffusion model (e.g., Stable Diffusion). Moreover, instead of running multiple times for different classes, FastSeg performs segmentation for all classes at once. To further enhance the segmentation quality, FastSeg introduces three key components: (i) a dual-prompt mechanism for discriminative, class-aware attention extraction, (ii) a Hierarchical Attention Refinement Method (HARD) that enhances fused cross-attention using scale-aligned selfattention maps, and (iii) a Test-Time Flipping (TTF) scheme designed to improve spatial consistency. Extensive experiments show that FastSeg achieves state-of-the-art training-free performance, obtaining 43.8% average mIoU across PASCAL VOC, PASCAL Context, and COCO Object benchmarks while maintaining superior inference efficiency. Our results demonstrate that FastSeg provides a strong foundation for extendability, bridging the gap between segmentation quality and inference efficiency.
- Abstract(参考訳): Open-vocabulary semantic segmentation (OVSS)は、厳密な注釈付きデータセットを必要とせずに、任意のテキストカテゴリからオブジェクトをセグメントすることを目的としている。
対照的な学習ベースモデルはゼロショットセグメンテーションを可能にするが、大域的な表現バイアスのため、画素レベルでの空間精度が低下することがしばしばある。
対照的に拡散モデルでは、グローバルコンテキストと局所的詳細の両方をキャプチャするアテンション機構を介して、自然に微細な空間的特徴を符号化する。
しかしながら、イテレーションの数とセグメンテーションの品質のバランスをとる上で、しばしば課題に直面します。
本研究では,FastSegを提案する。FastSegは,事前学習した拡散モデルの逆過程(安定拡散など)の1+1ステップしか持たない,新規で効率的なトレーニング不要なフレームワークである。
さらに、異なるクラスに対して複数回実行する代わりに、FastSegはすべてのクラスに対して一度にセグメンテーションを実行する。
セグメンテーションの品質をさらに向上するため、FastSegは3つの重要なコンポーネントを紹介した。
(i)識別・クラス認識型注意抽出のための二重プロンプト機構
(II)スケールアラインな自己注意マップを用いた融合横断注意を高める階層的注意保持法(HARD)
三 空間整合性を改善するためのテストタイム・フリップ(TTF)方式
大規模な実験により、FastSegは最先端のトレーニングフリーのパフォーマンスを達成し、PASCAL VOC、PASCAL Context、COCO Objectベンチマークで平均43.8%のmIoUを得た。
我々の結果は,FastSegがセグメンテーション品質と推論効率のギャップを埋める,拡張性のための強力な基盤を提供することを示した。
関連論文リスト
- No time to train! Training-Free Reference-Based Instance Segmentation [15.061599989448867]
本研究は,少数の参照画像のみを備える場合のオブジェクトセグメンテーションの課題について検討する。
我々の重要な洞察は、ファンデーションモデルによって学習された強力なセマンティック・プライドを活用して、参照とターゲット画像の間の対応する領域を特定することである。
対応によって、下流タスクのためのインスタンスレベルのセグメンテーションマスクの自動生成が可能になり、マルチステージのトレーニング不要な方法でアイデアをインスタンス化する。
論文 参考訳(メタデータ) (2025-07-03T16:59:01Z) - Target Semantics Clustering via Text Representations for Robust Universal Domain Adaptation [37.61604558855609]
Universal Domain Adaptation (UniDA)は、ドメインシフトと未知のカテゴリシフトの両方の下で、ソースドメインの知識をターゲットドメインに転送することに焦点を当てている。
現在の手法では、制約のない連続画像表現空間からターゲット領域意味論センターを得るのが一般的である。
本稿では,視覚言語モデルに基づく意味的意味的かつ離散的なテキスト表現空間のセマンティックセンターを探索する。
論文 参考訳(メタデータ) (2025-06-04T03:11:53Z) - Federated Unsupervised Semantic Segmentation [14.64737842208937]
本研究は,教師なしセマンティックイメージ(USS)におけるフェデレートラーニング(FL)の適用について検討する。
FUSSは、完全に分散化されたラベルなしセマンティックセグメンテーショントレーニングを可能にする最初のフレームワークである。
バイナリとマルチクラスのセグメンテーションタスクを含む、ベンチマークと実世界のデータセットの両方の実験は、FUSSがローカルのみのクライアントトレーニングを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-29T09:43:55Z) - Improving Open-Set Semantic Segmentation in 3D Point Clouds by Conditional Channel Capacity Maximization: Preliminary Results [1.1328543389752008]
オープンセットセマンティック(O3S)のためのプラグアンドプレイフレームワークを提案する。
セグメンテーションパイプラインを条件付きマルコフ連鎖としてモデル化することにより、条件付きチャネル容量最大化(3CM)と呼ばれる新しい正規化器項を導出する。
3CMは,エンコーダがよりリッチでラベルに依存した機能を維持することを奨励し,従来見つからなかったカテゴリを識別・分割するネットワークの能力を向上することを示す。
論文 参考訳(メタデータ) (2025-05-09T04:12:26Z) - One-shot In-context Part Segmentation [97.77292483684877]
パートセグメンテーションの課題に取り組むために,One-shot In-context Part (OIParts) フレームワークを提案する。
私たちのフレームワークは、トレーニングのない、フレキシブルで、データ効率のよいパートセグメンテーションに対して、新しいアプローチを提供します。
我々は多種多様な対象カテゴリで顕著なセグメンテーション性能を達成した。
論文 参考訳(メタデータ) (2025-03-03T03:50:54Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - iSeg: An Iterative Refinement-based Framework for Training-free Segmentation [85.58324416386375]
本稿では,自己注意マップを用いた横断注意マップの繰り返し精錬に関する実験的検討を行った。
トレーニング不要セグメンテーションのための効果的な反復改良フレームワークiSegを提案する。
提案したiSegは,mIoUの3.8%の絶対ゲインを達成している。
論文 参考訳(メタデータ) (2024-09-05T03:07:26Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Masked Supervised Learning for Semantic Segmentation [5.177947445379688]
Masked Supervised Learning (MaskSup)は、短いコンテキストと長距離コンテキストの両方をモデル化する効果的なシングルステージ学習パラダイムである。
提案手法は計算効率が良く,平均交叉和(mIoU)において10%向上することを示す。
論文 参考訳(メタデータ) (2022-10-03T13:30:19Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Generalized Few-shot Semantic Segmentation [68.69434831359669]
本稿では,GFS-Seg(Generalized Few-Shot Semantic)と呼ばれる新しいベンチマークを導入する。
GFS-セグにおいて、先行する最先端の一般化が不足していることを示す最初の研究である。
本研究では,1)支援サンプルから共起前の知識を活用すること,2)各クエリ画像の内容に基づいて条件付き情報に動的に拡張することにより,性能を著しく向上するコンテキスト認識型プロトタイプ学習(CAPL)を提案する。
論文 参考訳(メタデータ) (2020-10-11T10:13:21Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。