論文の概要: AdaptiveClick: Clicks-aware Transformer with Adaptive Focal Loss for Interactive Image Segmentation
- arxiv url: http://arxiv.org/abs/2305.04276v2
- Date: Thu, 14 Mar 2024 07:40:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 03:12:58.539665
- Title: AdaptiveClick: Clicks-aware Transformer with Adaptive Focal Loss for Interactive Image Segmentation
- Title(参考訳): AdaptiveClick: 対話型画像セグメンテーションのためのAdaptive Focal Loss付きクリック対応変換器
- Authors: Jiacheng Lin, Jiajun Chen, Kailun Yang, Alina Roitberg, Siyu Li, Zhiyong Li, Shutao Li,
- Abstract要約: インタラクティブイメージ(IIS)のためのトランスフォーマーベースのマスク適応セグメンテーションフレームワークであるAdaptiveClickを紹介した。
Click-Aware Mask-Adaptive Transformer Decoder (CAMD) はクリックと画像の特徴の相互作用を強化する。
通常のViTバックボーンでは、9つのデータセットに対する広範な実験結果から、AdaptiveClickが最先端の手法よりも優れていることが示される。
- 参考スコア(独自算出の注目度): 51.82915587228898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive Image Segmentation (IIS) has emerged as a promising technique for decreasing annotation time. Substantial progress has been made in pre- and post-processing for IIS, but the critical issue of interaction ambiguity, notably hindering segmentation quality, has been under-researched. To address this, we introduce AdaptiveClick -- a click-aware transformer incorporating an adaptive focal loss that tackles annotation inconsistencies with tools for mask- and pixel-level ambiguity resolution. To the best of our knowledge, AdaptiveClick is the first transformer-based, mask-adaptive segmentation framework for IIS. The key ingredient of our method is the Click-Aware Mask-adaptive transformer Decoder (CAMD), which enhances the interaction between click and image features. Additionally, AdaptiveClick enables pixel-adaptive differentiation of hard and easy samples in the decision space, independent of their varying distributions. This is primarily achieved by optimizing a generalized Adaptive Focal Loss (AFL) with a theoretical guarantee, where two adaptive coefficients control the ratio of gradient values for hard and easy pixels. Our analysis reveals that the commonly used Focal and BCE losses can be considered special cases of the proposed AFL. With a plain ViT backbone, extensive experimental results on nine datasets demonstrate the superiority of AdaptiveClick compared to state-of-the-art methods. The source code is publicly available at https://github.com/lab206/AdaptiveClick.
- Abstract(参考訳): アノテーション時間を短縮するための有望な手法として,IIS(Interactive Image Segmentation)が登場している。
IISの事前および後処理における実質的な進歩は確認されていないが、相互作用のあいまいさ、特にセグメンテーションの品質を阻害する重要な問題は研究されていない。
これに対処するため、AdaptiveClickというクリック対応のトランスフォーマーを導入しました。このトランスフォーマーは、アノテーションの不整合に対処するアダプティブフォーカスロスを、マスクやピクセルレベルの曖昧性解決のためのツールと組み合わせています。
我々の知る限りでは、AdaptiveClickはIISのためのトランスフォーマーベースのマスク適応セグメンテーションフレームワークである。
Click-Aware Mask-Adaptive Transformer Decoder (CAMD) はクリックと画像の特徴の相互作用を強化する。
さらに、AdaptiveClickは、決定空間における困難で簡単なサンプルのピクセル適応的な微分を可能にする。
これは、AFL(Adaptive Focal Loss)を理論的な保証で最適化することで主に達成され、2つの適応係数がハードピクセルと易画素の勾配値の比を制御している。
分析の結果, 一般的に使用されているFocalとBCEの損失は, 提案したAFLの特別な場合と考えられることが明らかとなった。
通常のViTバックボーンでは、9つのデータセットに対する広範な実験結果から、AdaptiveClickが最先端の手法よりも優れていることが示される。
ソースコードはhttps://github.com/lab206/AdaptiveClick.comで公開されている。
関連論文リスト
- Investigating Shift Equivalence of Convolutional Neural Networks in
Industrial Defect Segmentation [3.843350895842836]
産業欠陥分割タスクでは、モデルの出力整合性(等価性とも呼ばれる)がしばしば見過ごされる。
CNNにおける従来のサンプリングレイヤの代替として,コンポーネントアテンション多相サンプリング(CAPS)と呼ばれる新しいダウン/アップサンプリング層が提案されている。
マイクロサーフェス欠陥(MSD)データセットと4つの実世界の産業的欠陥データセットの実験結果から,提案手法は高い等価性とセグメンテーション性能を示すことが示された。
論文 参考訳(メタデータ) (2023-09-29T00:04:47Z) - Condition-Invariant Semantic Segmentation [77.10045325743644]
我々は現在最先端のドメイン適応アーキテクチャ上で条件不変セマンティック(CISS)を実装している。
本手法は,通常の都市景観$to$ACDCベンチマークにおいて,2番目に高い性能を実現する。
CISSはBDD100K-nightやACDC-nightのようなトレーニング中に見えない領域によく一般化している。
論文 参考訳(メタデータ) (2023-05-27T03:05:07Z) - TransAdapt: A Transformative Framework for Online Test Time Adaptive
Semantic Segmentation [43.31250660146429]
テスト時間適応(TTA)セマンティックセマンティックセマンティックセマンティクスは、ソーストレーニング済みの画像セマンティクスモデルを、未ラベルの領域テストイメージのバッチに適応させる。
本稿では,変換器と入力変換を用いてセグメンテーション性能を向上させるフレームワークであるTransAdaptを提案する。
論文 参考訳(メタデータ) (2023-02-24T01:45:29Z) - Refign: Align and Refine for Adaptation of Semantic Segmentation to
Adverse Conditions [78.71745819446176]
Refignは、ドメイン間の通信を利用する自己学習ベースのUDAメソッドへの汎用的な拡張である。
Refign は,(1) 不確実性を認識した高密度マッチングネットワークを用いて,正常条件画像と対応する悪条件画像とを整列させ,(2) 適応ラベル補正機構を用いて正常予測で悪条件予測を精査する。
このアプローチでは、追加のトレーニングパラメータや、トレーニングのみの計算オーバーヘッドの最小化は導入されず、任意の自己学習ベースのUDAメソッドを改善するためにドロップイン拡張として使用することができる。
論文 参考訳(メタデータ) (2022-07-14T11:30:38Z) - UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer
via Hierarchical Mask Calibration [49.16591283724376]
単一ネットワーク内でのドメイン適応型インスタンス分割とセマンティックセマンティックセマンティックセマンティクスを同時に実現可能な,シンプルで統一されたドメイン適応型パン光学セマンティクスセマンティクス変換器UniDAformerを設計する。
UniDAformerは階層型マスク(Hierarchical Mask, HMC)を導入し、オンザフライでのオンラインセルフトレーニングを通じて、領域、スーパーピクセル、注釈付きピクセルのレベルで不正確な予測を修正した。
1) 統合されたドメイン適応型パン光学適応を可能にする; 2) 誤った予測を緩和し、ドメイン適応型パン光学セグメンテーションを効果的に改善する; 3) より単純なトレーニングと推論パイプラインでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2022-06-30T07:32:23Z) - The Lighter The Better: Rethinking Transformers in Medical Image
Segmentation Through Adaptive Pruning [26.405243756778606]
本稿では,医療画像セグメンテーションのための変換器に適応型プルーニングを適用し,軽量ネットワークAPFormerを提案する。
私たちの知る限りでは、医療画像解析タスクのためのトランスフォーマープルーニングに関する最初の研究である。
我々は,アダプティブプルーニングが他のハイブリッド/トランスフォーマー方式の性能向上のためのプラグイン-n-playモジュールとして機能することを,アブレーション研究を通じて証明した。
論文 参考訳(メタデータ) (2022-06-29T05:49:36Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。