論文の概要: MAIS: Memory-Attention for Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2505.07511v1
- Date: Mon, 12 May 2025 12:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.380343
- Title: MAIS: Memory-Attention for Interactive Segmentation
- Title(参考訳): MAIS: 対話型セグメンテーションのためのメモリアテンション
- Authors: Mauricio Orbes-Arteaga, Oeslle Lucena, Sabastien Ourselin, M. Jorge Cardoso,
- Abstract要約: Vision Transformer (ViT) ベースのモデルでは,ユーザクリックと先行マスクをプロンプトとして使用することで,最先端のパフォーマンスを実現する。
既存の方法は、相互作用を独立した事象として扱い、冗長な修正と限定的な改善をもたらす。
我々は,過去のユーザ入力とセグメンテーション状態を格納し,時間的コンテキスト統合を可能にするInteractiveのメモリアテンション機構を導入することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 0.8678845273264675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive medical segmentation reduces annotation effort by refining predictions through user feedback. Vision Transformer (ViT)-based models, such as the Segment Anything Model (SAM), achieve state-of-the-art performance using user clicks and prior masks as prompts. However, existing methods treat interactions as independent events, leading to redundant corrections and limited refinement gains. We address this by introducing MAIS, a Memory-Attention mechanism for Interactive Segmentation that stores past user inputs and segmentation states, enabling temporal context integration. Our approach enhances ViT-based segmentation across diverse imaging modalities, achieving more efficient and accurate refinements.
- Abstract(参考訳): インタラクティブなメディカルセグメンテーションは、ユーザフィードバックを通じて予測を精査することでアノテーションの労力を削減する。
SAM(Segment Anything Model)のような視覚変換器(ViT)ベースのモデルは、ユーザクリックと先行マスクをプロンプトとして使用して最先端のパフォーマンスを達成する。
しかし、既存の方法は相互作用を独立した事象として扱い、冗長な修正と限定的な改善をもたらす。
我々は,過去のユーザ入力とセグメンテーション状態を保存する対話セグメンテーションのためのメモリ・アテンション・メカニズムであるMAISを導入することでこの問題に対処する。
我々のアプローチは、様々な画像モダリティをまたいだViTベースのセグメンテーションを強化し、より効率的で正確な精細化を実現している。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - PE-MED: Prompt Enhancement for Interactive Medical Image Segmentation [9.744164910887223]
本稿では,対話型医用画像分割のためのプロンプトエンハンスメント(PE-MED)を備えた新しいフレームワークを提案する。
まず、最初のプロンプトに基づいて、温かい初期セグメンテーション結果を生成するセルフループ戦略を導入する。
第2に、1つのインタラクションにおいて有用な情報をマイニングするための新しいPrompt Attention Learning Module (PALM)を提案する。
論文 参考訳(メタデータ) (2023-08-26T03:11:48Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - InterFormer: Real-time Interactive Image Segmentation [80.45763765116175]
インタラクティブなイメージセグメンテーションにより、アノテータはセグメンテーションタスクのためのピクセルレベルのアノテーションを効率的に実行することができる。
既存のインタラクティブセグメンテーションパイプラインは、インタラクティブモデルの非効率な計算に悩まされている。
これらの問題に対処するための新しいパイプラインに従うInterFormerという手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T08:57:00Z) - Modular Interactive Video Object Segmentation: Interaction-to-Mask,
Propagation and Difference-Aware Fusion [68.45737688496654]
本稿では,マスク間相互作用とマスク伝搬を分離するモジュール型対話型VOSフレームワークを提案する。
提案手法は,フレーム間インタラクションを少なくしつつ,現在の最先端アルゴリズムよりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-14T14:39:08Z) - Multi-Stage Fusion for One-Click Segmentation [20.00726292545008]
対話型セグメンテーションのための多段階ガイダンスフレームワークを提案する。
提案フレームワークは,早期融合フレームワークと比較してパラメータ数の増加は無視できない。
論文 参考訳(メタデータ) (2020-10-19T17:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。