論文の概要: FastSeg: Efficient Training-Free Open-Vocabulary Segmentation via Hierarchical Attention Refinement Method
- arxiv url: http://arxiv.org/abs/2506.23323v1
- Date: Sun, 29 Jun 2025 16:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.831059
- Title: FastSeg: Efficient Training-Free Open-Vocabulary Segmentation via Hierarchical Attention Refinement Method
- Title(参考訳): FastSeg: 階層的アテンションリファインメント法による効率的な学習自由なオープンボキャブラリセグメンテーション
- Authors: Quang-Huy Che, Vinh-Tiep Nguyen,
- Abstract要約: Open-vocabulary semantic segmentationは、厳密な注釈付きデータセットを必要とせずに、任意のテキストカテゴリからオブジェクトをセグメントすることを目的としている。
FastSegはトレーニング不要のフレームワークで、事前訓練された拡散モデルの逆過程の(1+1)ステップのみを持つ。
最先端のトレーニングフリーのパフォーマンスを実現し、PASCAL VOC、PASCAL Context、COCO Objectベンチマークで平均43.8%のmIoUが得られる。
- 参考スコア(独自算出の注目度): 1.4525238046020867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary semantic segmentation (OVSS) aims to segment objects from arbitrary text categories without requiring densely annotated datasets. Although contrastive learning based models enable zero-shot segmentation, they often lose fine spatial precision at pixel level, due to global representation bias. In contrast, diffusion-based models naturally encode fine-grained spatial features via attention mechanisms that capture both global context and local details. However, they often face challenges in balancing the number of iterations with the quality of the segmentation. In this work, we propose FastSeg, a novel and efficient training-free framework with only (1+1)-step of reverse process of a pretrained diffusion model (e.g., Stable Diffusion). Moreover, instead of running multiple times for different classes, FastSeg performs segmentation for all classes at once. To further enhance the segmentation quality, FastSeg introduces three key components: (i) a dual-prompt mechanism for discriminative, class-aware attention extraction, (ii) a Hierarchical Attention Refinement Method (HARD) that enhances fused cross-attention using scale-aligned selfattention maps, and (iii) a Test-Time Flipping (TTF) scheme designed to improve spatial consistency. Extensive experiments show that FastSeg achieves state-of-the-art training-free performance, obtaining 43.8% average mIoU across PASCAL VOC, PASCAL Context, and COCO Object benchmarks while maintaining superior inference efficiency. Our results demonstrate that FastSeg provides a strong foundation for extendability, bridging the gap between segmentation quality and inference efficiency.
- Abstract(参考訳): Open-vocabulary semantic segmentation (OVSS)は、厳密な注釈付きデータセットを必要とせずに、任意のテキストカテゴリからオブジェクトをセグメントすることを目的としている。
対照的な学習ベースモデルはゼロショットセグメンテーションを可能にするが、大域的な表現バイアスのため、画素レベルでの空間精度が低下することがしばしばある。
対照的に拡散モデルでは、グローバルコンテキストと局所的詳細の両方をキャプチャするアテンション機構を介して、自然に微細な空間的特徴を符号化する。
しかしながら、イテレーションの数とセグメンテーションの品質のバランスをとる上で、しばしば課題に直面します。
本研究では,FastSegを提案する。FastSegは,事前学習した拡散モデルの逆過程(安定拡散など)の1+1ステップしか持たない,新規で効率的なトレーニング不要なフレームワークである。
さらに、異なるクラスに対して複数回実行する代わりに、FastSegはすべてのクラスに対して一度にセグメンテーションを実行する。
セグメンテーションの品質をさらに向上するため、FastSegは3つの重要なコンポーネントを紹介した。
(i)識別・クラス認識型注意抽出のための二重プロンプト機構
(II)スケールアラインな自己注意マップを用いた融合横断注意を高める階層的注意保持法(HARD)
三 空間整合性を改善するためのテストタイム・フリップ(TTF)方式
大規模な実験により、FastSegは最先端のトレーニングフリーのパフォーマンスを達成し、PASCAL VOC、PASCAL Context、COCO Objectベンチマークで平均43.8%のmIoUを得た。
我々の結果は,FastSegがセグメンテーション品質と推論効率のギャップを埋める,拡張性のための強力な基盤を提供することを示した。
関連論文リスト
- ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - iSeg: An Iterative Refinement-based Framework for Training-free Segmentation [85.58324416386375]
本稿では,自己注意マップを用いた横断注意マップの繰り返し精錬に関する実験的検討を行った。
トレーニング不要セグメンテーションのための効果的な反復改良フレームワークiSegを提案する。
提案したiSegは,mIoUの3.8%の絶対ゲインを達成している。
論文 参考訳(メタデータ) (2024-09-05T03:07:26Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。