論文の概要: MMMS: Multi-Modal Multi-Surface Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2509.12963v1
- Date: Tue, 16 Sep 2025 11:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.054212
- Title: MMMS: Multi-Modal Multi-Surface Interactive Segmentation
- Title(参考訳): MMMS:マルチモーダル多面インタラクティブセグメンテーション
- Authors: Robin Schön, Julian Lorenz, Katja Ludwig, Daniel Kienzle, Rainer Lienhart,
- Abstract要約: 本稿では,ユーザクリックに基づいてセグメンテーションマスクを対話的に作成する手法を提案する。
同じ画像に同時に存在する複数の曲面のセグメンテーションに特に注意を払う。
我々のシステムは,DeLiVERでは平均1.28クリック,MFNetでは1.19クリックまで,NoC@90を削減している。
- 参考スコア(独自算出の注目度): 30.03426537185631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a method to interactively create segmentation masks on the basis of user clicks. We pay particular attention to the segmentation of multiple surfaces that are simultaneously present in the same image. Since these surfaces may be heavily entangled and adjacent, we also present a novel extended evaluation metric that accounts for the challenges of this scenario. Additionally, the presented method is able to use multi-modal inputs to facilitate the segmentation task. At the center of this method is a network architecture which takes as input an RGB image, a number of non-RGB modalities, an erroneous mask, and encoded clicks. Based on this input, the network predicts an improved segmentation mask. We design our architecture such that it adheres to two conditions: (1) The RGB backbone is only available as a black-box. (2) To reduce the response time, we want our model to integrate the interaction-specific information after the image feature extraction and the multi-modal fusion. We refer to the overall task as Multi-Modal Multi-Surface interactive segmentation (MMMS). We are able to show the effectiveness of our multi-modal fusion strategy. Using additional modalities, our system reduces the NoC@90 by up to 1.28 clicks per surface on average on DeLiVER and up to 1.19 on MFNet. On top of this, we are able to show that our RGB-only baseline achieves competitive, and in some cases even superior performance when tested in a classical, single-mask interactive segmentation scenario.
- Abstract(参考訳): 本稿では,ユーザクリックに基づいてセグメンテーションマスクを対話的に作成する手法を提案する。
同じ画像に同時に存在する複数の曲面のセグメンテーションに特に注意を払う。
これらの表面は強く絡み合って隣接している可能性があるため、このシナリオの課題を考慮に入れた新しい拡張評価指標も提示する。
さらに,提案手法では,セグメント化作業を容易にするためにマルチモーダル入力を利用することができる。
この手法の中心となるのは、RGB画像、RGB以外の多数のモダリティ、誤ったマスク、エンコードされたクリックを入力とするネットワークアーキテクチャである。
この入力に基づいて、ネットワークは改良されたセグメンテーションマスクを予測する。
1) RGBバックボーンはブラックボックスとしてのみ利用可能である。
2) 応答時間を短縮するため,画像特徴抽出とマルチモーダル融合後のインタラクション固有情報の統合が望まれる。
本研究は,Multi-Modal Multi-Surface Interactive segmentation (MMMS) と呼ぶ。
マルチモーダル融合戦略の有効性を示すことができる。
追加のモダリティを用いることで、DeLiVERでは1面あたり1.28クリック、MFNetでは1.19クリックまで、NoC@90を削減できる。
これに加えて、RGBのみのベースラインが競争力を発揮することを示すことができ、古典的でシングルマスクの対話的なセグメンテーションシナリオでテストした場合、さらに優れたパフォーマンスが得られる場合もあります。
関連論文リスト
- LlamaSeg: Image Segmentation via Autoregressive Mask Generation [46.17509085054758]
LlamaSegは視覚的自己回帰フレームワークで、自然言語による複数の画像分割タスクを統一する。
マスクを「視覚的」トークンとして表現し、LLaMA方式のトランスフォーマーを用いて画像入力から直接予測することで、画像分割を視覚生成問題として再構成する。
論文 参考訳(メタデータ) (2025-05-26T02:22:41Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - DynaMITe: Dynamic Query Bootstrapping for Multi-object Interactive
Segmentation Transformer [58.95404214273222]
最先端のインスタンスセグメンテーション手法の多くは、訓練のために大量のピクセル精度のグランドトルースに依存している。
ユーザインタラクションを時間的クエリとして表現するDynaMITeという,より効率的なアプローチを導入する。
我々のアーキテクチャはまた、改善中にイメージ機能を再計算する必要をなくし、単一のイメージに複数のインスタンスをセグメント化するためのインタラクションを少なくする。
論文 参考訳(メタデータ) (2023-04-13T16:57:02Z) - InterFormer: Real-time Interactive Image Segmentation [80.45763765116175]
インタラクティブなイメージセグメンテーションにより、アノテータはセグメンテーションタスクのためのピクセルレベルのアノテーションを効率的に実行することができる。
既存のインタラクティブセグメンテーションパイプラインは、インタラクティブモデルの非効率な計算に悩まされている。
これらの問題に対処するための新しいパイプラインに従うInterFormerという手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T08:57:00Z) - SEMI-PointRend: Improved Semiconductor Wafer Defect Classification and
Segmentation as Rendering [0.31317409221921133]
PointRendはコンピュータグラフィックスにおける画像レンダリングにインスパイアされた反復セグメンテーションアルゴリズムである。
SEMI-PointRend が Mask R-CNN を最大 18.8% 上回っていることを示す。
論文 参考訳(メタデータ) (2023-02-19T13:12:28Z) - MultiMAE: Multi-modal Multi-task Masked Autoencoders [2.6763498831034043]
マルチモーダルマルチタスクマスケ自動エンコーダ(MultiMAE)と呼ばれる事前学習戦略を提案する。
我々は、この事前学習戦略が、ダウンストリームタスクへの転送結果を改善した、柔軟で、シンプルで、効率的なフレームワークに繋がることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:50:41Z) - Modular Interactive Video Object Segmentation: Interaction-to-Mask,
Propagation and Difference-Aware Fusion [68.45737688496654]
本稿では,マスク間相互作用とマスク伝搬を分離するモジュール型対話型VOSフレームワークを提案する。
提案手法は,フレーム間インタラクションを少なくしつつ,現在の最先端アルゴリズムよりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-14T14:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。