論文の概要: iSeg: An Iterative Refinement-based Framework for Training-free Segmentation
- arxiv url: http://arxiv.org/abs/2409.03209v4
- Date: Tue, 8 Oct 2024 08:32:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 23:23:02.516581
- Title: iSeg: An Iterative Refinement-based Framework for Training-free Segmentation
- Title(参考訳): iSeg: トレーニングフリーセグメンテーションのための反復リファインメントベースのフレームワーク
- Authors: Lin Sun, Jiale Cao, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang,
- Abstract要約: 本稿では,自己注意マップを用いた横断注意マップの繰り返し精錬に関する実験的検討を行った。
トレーニング不要セグメンテーションのための効果的な反復改良フレームワークiSegを提案する。
提案したiSegは,mIoUの3.8%の絶対ゲインを達成している。
- 参考スコア(独自算出の注目度): 85.58324416386375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stable diffusion has demonstrated strong image synthesis ability to given text descriptions, suggesting it to contain strong semantic clue for grouping objects. The researchers have explored employing stable diffusion for training-free segmentation. Most existing approaches refine cross-attention map by self-attention map once, demonstrating that self-attention map contains useful semantic information to improve segmentation. To fully utilize self-attention map, we present a deep experimental analysis on iteratively refining cross-attention map with self-attention map, and propose an effective iterative refinement framework for training-free segmentation, named iSeg. The proposed iSeg introduces an entropy-reduced self-attention module that utilizes a gradient descent scheme to reduce the entropy of self-attention map, thereby suppressing the weak responses corresponding to irrelevant global information. Leveraging the entropy-reduced self-attention module, our iSeg stably improves refined cross-attention map with iterative refinement. Further, we design a category-enhanced cross-attention module to generate accurate cross-attention map, providing a better initial input for iterative refinement. Extensive experiments across different datasets and diverse segmentation tasks reveal the merits of proposed contributions, leading to promising performance on diverse segmentation tasks. For unsupervised semantic segmentation on Cityscapes, our iSeg achieves an absolute gain of 3.8% in terms of mIoU compared to the best existing training-free approach in literature. Moreover, our proposed iSeg can support segmentation with different kinds of images and interactions. The project is available at https://linsun449.github.io/iSeg.
- Abstract(参考訳): 安定拡散は、テキスト記述を与える強力な画像合成能力を示し、オブジェクトをグループ化するための強力な意味的手がかりを含むことを示唆している。
研究者らは、トレーニングフリーセグメンテーションのための安定拡散を利用した研究を行っている。
既存のほとんどのアプローチは、自己アテンションマップを一度に洗練し、自己アテンションマップはセグメンテーションを改善するのに有用な意味情報を含んでいることを示した。
自己アテンションマップをフル活用するために, 自己アテンションマップを用いた相互アテンションマップの反復精細化に関する実験的検討を行い, iSeg という名前のトレーニング不要セグメンテーションのための効果的な反復精細化フレームワークを提案する。
提案したiSegは、勾配降下法を用いて、自己アテンションマップのエントロピーを低減し、無関係なグローバル情報に対応する弱い応答を抑制するエントロピー還元自己アテンションモジュールを提案する。
エントロピーを再現した自己アテンションモジュールを活用することで、iSegは反復的リファインメントによる洗練された横断アテンションマップを安定的に改善する。
さらに,カテゴリ拡張型クロスアテンションモジュールを設計し,正確なクロスアテンションマップを生成する。
さまざまなデータセットと多様なセグメンテーションタスクにわたる大規模な実験は、提案されたコントリビューションのメリットを明らかにし、多様なセグメンテーションタスクにおいて有望なパフォーマンスをもたらす。
Cityscapesの教師なしセマンティックセマンティックセマンティクスでは,mIoUの3.8%の絶対ゲインを達成している。
さらに,提案するiSegは,画像やインタラクションの異なるセグメンテーションをサポートすることができる。
このプロジェクトはhttps://linsun449.github.io/iSeg.comで入手できる。
関連論文リスト
- ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - Self-supervised Few-shot Learning for Semantic Segmentation: An
Annotation-free Approach [4.855689194518905]
Few-shot semantic segmentation (FSS)は、医用画像解析の分野で大きな可能性を秘めている。
既存のFSS技術は注釈付きセマンティッククラスに大きく依存しており、医療画像には適さない。
本稿では,アノテーションに依存しない新たな自己教師型FSSフレームワークを提案する。その代わりに,支援画像から得られる固有ベクトルを利用して,クエリマスクを適応的に推定する。
論文 参考訳(メタデータ) (2023-07-26T18:33:30Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z) - Self-Guided and Cross-Guided Learning for Few-Shot Segmentation [12.899804391102435]
単発セグメンテーションのための自己誘導学習手法を提案する。
注釈付き支持画像の初期予測を行うことにより、被覆および検出された前景領域を一次および補助支持ベクトルに符号化する。
プライマリサポートベクターと補助サポートベクターの両方を集約することで、クエリイメージ上でより良いセグメンテーション性能が得られます。
論文 参考訳(メタデータ) (2021-03-30T07:36:41Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z) - Mixup-CAM: Weakly-supervised Semantic Segmentation via Uncertainty
Regularization [73.03956876752868]
我々は、ネットワークがオブジェクトの他の部分に注意を払うことを可能にする、原則的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
具体的には、ミックスアップデータ拡張方式を分類ネットワークに導入し、2つの不確実な正規化項を設計し、ミックスアップ戦略をよりよく扱う。
論文 参考訳(メタデータ) (2020-08-03T21:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。