論文の概要: M2N2V2: Multi-Modal Unsupervised and Training-free Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2503.16254v1
- Date: Thu, 20 Mar 2025 15:47:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:31:49.203522
- Title: M2N2V2: Multi-Modal Unsupervised and Training-free Interactive Segmentation
- Title(参考訳): M2N2V2:マルチモーダルな教師なしおよびトレーニング不要な対話型セグメンテーション
- Authors: Markus Karmann, Peng-Tao Jiang, Bo Li, Onay Urfalioglu,
- Abstract要約: Markov Map Nearest Neighbor V2 (M2N2V2) は、ポイントプロンプトに基づく対話的セグメンテーションのための、新しくてシンプルで効果的なアプローチである。
提案したM2N2V2は,医療領域以外のすべてのデータセットと比較して,クリック数(NoC)とmIoUを有意に改善することを示した。
- 参考スコア(独自算出の注目度): 10.995885417671523
- License:
- Abstract: We present Markov Map Nearest Neighbor V2 (M2N2V2), a novel and simple, yet effective approach which leverages depth guidance and attention maps for unsupervised and training-free point-prompt-based interactive segmentation. Following recent trends in supervised multimodal approaches, we carefully integrate depth as an additional modality to create novel depth-guided Markov-maps. Furthermore, we observe occasional segment size fluctuations in M2N2 during the interactive process, which can decrease the overall mIoU's. To mitigate this problem, we model the prompting as a sequential process and propose a novel adaptive score function which considers the previous segmentation and the current prompt point in order to prevent unreasonable segment size changes. Using Stable Diffusion 2 and Depth Anything V2 as backbones, we empirically show that our proposed M2N2V2 significantly improves the Number of Clicks (NoC) and mIoU compared to M2N2 in all datasets except those from the medical domain. Interestingly, our unsupervised approach achieves competitive results compared to supervised methods like SAM and SimpleClick in the more challenging DAVIS and HQSeg44K datasets in the NoC metric, reducing the gap between supervised and unsupervised methods.
- Abstract(参考訳): 教師なし, 訓練不要なポイントプロンプトに基づく対話的セグメンテーションにおいて, 奥行き誘導と注意マップを活用する新しい, シンプルかつ効果的なアプローチであるMarkov Map Nearest Neighbor V2(M2N2V2)を提案する。
教師付きマルチモーダルアプローチの最近のトレンドに従えば、新しい奥行き誘導マルコフ写像を作成するための追加のモダリティとして深度を慎重に統合する。
さらに,M2N2の相互作用過程におけるセグメントサイズ変動を観察することで,全体のmIoUを減少させることができる。
この問題を緩和するために,提案手法を逐次的プロセスとしてモデル化し,不合理なセグメントサイズ変化を防止するために,前のセグメンテーションと現在のプロンプトポイントを考慮した適応スコア関数を提案する。
安定拡散2と奥行きV2をバックボーンとして用いて,提案したM2N2V2は,医療領域以外のすべてのデータセットでM2N2と比較して,クリック数(NoC)とmIoUを有意に改善することを示した。
興味深いことに、私たちの教師なしアプローチは、より難しいDAVISとHQSeg44KデータセットにおいてSAMやSimpleClickのような教師なしの手法と比較して、競合的な結果を得ることができ、教師なしメソッドと教師なしメソッドのギャップを減らします。
関連論文リスト
- DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of
Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。
次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。
最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文 参考訳(メタデータ) (2022-06-21T17:40:55Z) - Mixed Graph Contrastive Network for Semi-Supervised Node Classification [63.924129159538076]
我々はMixed Graph Contrastive Network(MGCN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
本研究では,非摂動増強戦略と相関還元機構により,潜伏埋め込みの識別能力を向上する。
これら2つの設定を組み合わせることで、識別表現学習のために、豊富なノードと稀に価値あるラベル付きノードの両方から、豊富な監視情報を抽出する。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Point Cloud Instance Segmentation with Semi-supervised Bounding-Box
Mining [17.69745159912481]
ラベル付きおよび未ラベルのバウンディングボックスを監視として使用した,最初の半教師付きポイントクラウドインスタンスセグメンテーションフレームワーク(SPIB)を紹介した。
提案手法は,近年の完全教師付き手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2021-11-30T08:40:40Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Semi-supervised Left Atrium Segmentation with Mutual Consistency
Training [60.59108570938163]
3次元MR画像からの半教師付き左房分割のための新しいMultual Consistency Network(MC-Net)を提案する。
我々のMC-Netは1つのエンコーダと2つのわずかに異なるデコーダから構成されており、2つのデコーダの予測誤差は教師なしの損失として変換される。
我々は,公開左心房(la)データベース上でmc-netを評価し,ラベルなしデータを効果的に活用することで印象的な性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-04T09:34:32Z) - Learning Multi-Modal Volumetric Prostate Registration with Weak
Inter-Subject Spatial Correspondence [2.6894568533991543]
MRシークエンスにおける前立腺の位置に関する事前情報のための補助入力をニューラルネットワークに導入する。
MR-TRUS前立腺データのラベルが弱いことから,最先端のディープラーニング手法に匹敵する登録品質を示した。
論文 参考訳(メタデータ) (2021-02-09T16:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。