論文の概要: Split-Fuse-Transport: Annotation-Free Saliency via Dual Clustering and Optimal Transport Alignment
- arxiv url: http://arxiv.org/abs/2510.17484v1
- Date: Mon, 20 Oct 2025 12:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.450331
- Title: Split-Fuse-Transport: Annotation-Free Saliency via Dual Clustering and Optimal Transport Alignment
- Title(参考訳): Split-Fuse-Transport:デュアルクラスタリングと最適トランスポートアライメントによるアノテーションフリーなサリエンシ
- Authors: Muhammad Umer Ramzan, Ali Zia, Abdelwahed Khamis, Noman Ali, Usman Ali, Wei Xiang,
- Abstract要約: Salient Object Detection (SOD) は、視覚的に目立つ領域を画像に分割することを目的としており、様々なコンピュータビジョンアプリケーションの基礎となるタスクとして機能している。
我々は、SODが1ピクセルレベルのラベルなしでほぼ監督された精度に達することができると仮定するが、信頼できる擬似マスクが利用可能である場合に限られる。
我々は,POTの単一k-平均ステップをエントロピー誘導デュアルクラスタリングヘッドで置き換える,プロトタイプ最適輸送の適応であるPOTNetを紹介する。
このスプリット・フューズ・トランスポートの設計は、手作りの先行を使わずに、よりシャープで部分認識の擬似マスクを単一の前方通過で得る。
- 参考スコア(独自算出の注目度): 10.013879292840707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient object detection (SOD) aims to segment visually prominent regions in images and serves as a foundational task for various computer vision applications. We posit that SOD can now reach near-supervised accuracy without a single pixel-level label, but only when reliable pseudo-masks are available. We revisit the prototype-based line of work and make two key observations. First, boundary pixels and interior pixels obey markedly different geometry; second, the global consistency enforced by optimal transport (OT) is underutilized if prototype quality is weak. To address this, we introduce POTNet, an adaptation of Prototypical Optimal Transport that replaces POT's single k-means step with an entropy-guided dual-clustering head: high-entropy pixels are organized by spectral clustering, low-entropy pixels by k-means, and the two prototype sets are subsequently aligned by OT. This split-fuse-transport design yields sharper, part-aware pseudo-masks in a single forward pass, without handcrafted priors. Those masks supervise a standard MaskFormer-style encoder-decoder, giving rise to AutoSOD, an end-to-end unsupervised SOD pipeline that eliminates SelfMask's offline voting yet improves both accuracy and training efficiency. Extensive experiments on five benchmarks show that AutoSOD outperforms unsupervised methods by up to 26% and weakly supervised methods by up to 36% in F-measure, further narrowing the gap to fully supervised models.
- Abstract(参考訳): Salient Object Detection (SOD) は、視覚的に目立つ領域を画像に分割することを目的としており、様々なコンピュータビジョンアプリケーションの基礎となるタスクとして機能している。
我々は、SODが1ピクセルレベルのラベルなしでほぼ監督された精度に達することができると仮定するが、信頼できる擬似マスクが利用可能である場合に限られる。
プロトタイプベースの作業行を再検討し、2つの重要な観察を行う。
第一に、境界画素と内部画素は明らかに異なる幾何学を踏襲し、第二に、最適な輸送(OT)によって強制される大域的な一貫性は、プロトタイプの品質が弱ければ未利用である。
これを解決するために、POTNetは、POTの単一k-平均ステップをエントロピー誘導デュアルクラスタリングヘッドに置き換える、プロトタイプ最適輸送の適応であり、高エントロピー画素はスペクトルクラスタリング、低エントロピー画素はk-平均により構成され、2つのプロトタイプセットは後にOTによって整列される。
このスプリット・フューズ・トランスポートの設計は、手作りの先行を使わずに、よりシャープで部分認識の擬似マスクを単一の前方通過で得る。
これらのマスクは、標準のMaskFormerスタイルのエンコーダデコーダを監督し、AutoSODを発生させる。
5つのベンチマークの大規模な実験により、AutoSODは教師なしの手法を最大26%、弱教師付き手法を最大36%で上回り、完全な教師付きモデルとのギャップをさらに狭めていることが示された。
関連論文リスト
- Unsupervised Deformable Image Registration with Structural Nonparametric Smoothing [21.95149344518237]
学習ベースの変形可能な画像登録(DIR)アライメントは、ニューラルネットワークを通じて従来の最適化を償却することによって加速する。
SmoothProperは、スムーズさを強制し、ネットワークのフォワードパス内でメッセージパッシングを促進するプラグイン・アンド・プレイのニューラルモジュールである。
網膜血管データセットの予備的な結果は,2912x2画像上での登録誤差を1.88ピクセルまで低減することを示した。
論文 参考訳(メタデータ) (2025-06-12T15:26:03Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection [108.672972439282]
SSM3ODに対するDPL(decoupled pseudo-labeling)アプローチを提案する。
提案手法は,擬似ラベルを効率的に生成するためのDPGモジュールを特徴とする。
また,擬似ラベルの雑音深度監視による最適化競合を軽減するために,DGPモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-26T05:12:18Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Model Inspired Autoencoder for Unsupervised Hyperspectral Image
Super-Resolution [25.878793557013207]
本稿では,低空間分解能HSIと高空間分解能マルチスペクトル像の融合を目的とした超高分解能画像(HSI)に焦点を当てた。
既存のディープラーニングベースのアプローチは、主に多数のラベル付きトレーニングサンプルに依存する教師付きである。
我々は、HSI超解像のためのモデルにインスパイアされたディープネットワークを教師なしで設計する最初の試みを行う。
論文 参考訳(メタデータ) (2021-10-22T05:15:16Z) - Graph Regularized Autoencoder and its Application in Unsupervised
Anomaly Detection [42.86693635734333]
本稿では,最小スパンニングツリー(MST)を用いて局所的な近傍構造を近似し,データ点間の構造保存距離を生成することを提案する。
我々は,20個のベンチマーク異常検出データセットに対して,多種多様な代替手法より優れた新しいグラフ正規化オートエンコーダを開発した。
論文 参考訳(メタデータ) (2020-10-29T21:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。