Fugu-MT 論文翻訳(概要): SAM-REF: Introducing Image-Prompt Synergy during Interaction for Detail Enhancement in the Segment Anything Model

論文の概要: SAM-REF: Introducing Image-Prompt Synergy during Interaction for Detail Enhancement in the Segment Anything Model

arxiv url: http://arxiv.org/abs/2408.11535v4
Date: Thu, 03 Apr 2025 02:38:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-04 12:51:12.668496
Title: SAM-REF: Introducing Image-Prompt Synergy during Interaction for Detail Enhancement in the Segment Anything Model
Title（参考訳）: SAM-REF:Segment Anything Modelにおける詳細強化のためのインタラクション中のイメージプロンプトシナジーの導入
Authors: Chongkai Yu, Ting Liu, Anqi Li, Xiaochao Qu, Chengjing Wu, Luoqi Liu, Xiaolin Hu,
Abstract要約: 軽量精細機を用いて画像とプロンプトを完全に統合する2段階精細化フレームワークを提案する。我々のSAM-REFモデルは、効率を損なうことなくセグメンテーション品質に関するほとんどの指標において、最先端の手法よりも優れています。
参考スコア（独自算出の注目度）: 24.774935133996074
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Interactive segmentation is to segment the mask of the target object according to the user's interactive prompts. There are two mainstream strategies: early fusion and late fusion. Current specialist models utilize the early fusion strategy that encodes the combination of images and prompts to target the prompted objects, yet repetitive complex computations on the images result in high latency. Late fusion models extract image embeddings once and merge them with the prompts in later interactions. This strategy avoids redundant image feature extraction and improves efficiency significantly. A recent milestone is the Segment Anything Model (SAM). However, this strategy limits the models' ability to extract detailed information from the prompted target zone. To address this issue, we propose SAM-REF, a two-stage refinement framework that fully integrates images and prompts by using a lightweight refiner into the interaction of late fusion, which combines the accuracy of early fusion and maintains the efficiency of late fusion. Through extensive experiments, we show that our SAM-REF model outperforms the current state-of-the-art method in most metrics on segmentation quality without compromising efficiency.
Abstract（参考訳）: 対話的セグメンテーションは、ユーザの対話的プロンプトに従ってターゲットオブジェクトのマスクをセグメンテーションする。主要な戦略は、早期融合と後期融合である。現在のスペシャリストモデルは、画像の組み合わせを符号化し、引き起こされたオブジェクトをターゲットにするよう促す初期の融合戦略を利用するが、画像上の反復的な複雑な計算は高いレイテンシをもたらす。後期融合モデルはイメージ埋め込みを一度抽出し、後続の相互作用におけるプロンプトとマージする。この戦略は冗長な画像特徴抽出を回避し、効率を大幅に向上させる。最近のマイルストーンはSegment Anything Model (SAM)である。しかし、この戦略は、モデルが誘導されたターゲットゾーンから詳細な情報を抽出する能力を制限する。そこで本研究では,画像とプロンプトを完全に統合した2段階改良フレームワークSAM-REFを提案する。広範な実験を通して、SAM-REFモデルは、効率を損なうことなくセグメンテーション品質に関するほとんどの指標において、現在の最先端手法よりも優れていることを示す。

関連論文リスト

Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文参考訳（メタデータ） (2025-03-03T06:16:31Z)
Rethinking Early-Fusion Strategies for Improved Multimodal Image Segmentation [7.757018983487103]
本稿では,早期融合戦略と,効率的なRGB-Tセマンティックセマンティックセマンティックセマンティクスのトレーニングのための簡易かつ効果的な特徴クラスタリングに基づく,新しいマルチモーダル融合ネットワーク(EFNet)を提案する。提案手法の有効性を異なるデータセットで検証し,より低いパラメータと計算量で従来の最先端手法より優れていることを示す。
論文参考訳（メタデータ） (2025-01-19T06:16:45Z)
Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。 DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文参考訳（メタデータ） (2024-10-16T06:28:49Z)
FusionSAM: Latent Space driven Segment Anything Model for Multimodal Fusion and Segmentation [37.74045675588487]
SAMをマルチモーダル画像セグメンテーションに初めて導入する。本稿では、SAMのマルチモーダル融合とセグメンテーション機能を強化するために、LSTG(Latent Space Token Generation)とFMP(Fusion Mask Prompting)モジュールを組み合わせた新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-26T02:20:55Z)
FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。 2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文参考訳（メタデータ） (2024-05-29T02:34:13Z)
MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文参考訳（メタデータ） (2024-04-24T07:38:14Z)
TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven Image Fusion Network [2.7387720378113554]
我々は、TSJNetと呼ばれるターゲットおよびセマンティック・アウェアネス駆動型核融合ネットワークを導入する。一連の構造に配置された核融合、検出、セグメンテーションを含む。視覚的に快く融合した結果を生成することができ、それぞれ2.84%と7.47%のオブジェクト検出とセグメンテーションのmAP @0.5とmIoUが平均的に増加する。
論文参考訳（メタデータ） (2024-02-02T08:37:38Z)
Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文参考訳（メタデータ） (2023-08-04T01:03:58Z)
MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文参考訳（メタデータ） (2023-07-18T11:26:02Z)
Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文参考訳（メタデータ） (2023-07-10T17:59:40Z)
A Task-guided, Implicitly-searched and Meta-initialized Deep Model for Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文参考訳（メタデータ） (2023-05-25T08:54:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。