Fugu-MT 論文翻訳(概要): SAM-REF: Rethinking Image-Prompt Synergy for Refinement in Segment Anything

論文の概要: SAM-REF: Rethinking Image-Prompt Synergy for Refinement in Segment Anything

arxiv url: http://arxiv.org/abs/2408.11535v2
Date: Thu, 22 Aug 2024 08:25:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 12:32:33.506635
Title: SAM-REF: Rethinking Image-Prompt Synergy for Refinement in Segment Anything
Title（参考訳）: SAM-REF: セグメントのリファインメントのためのイメージプロンプトのシナジーを再考する
Authors: Chongkai Yu, Anqi Li, Xiaochao Qu, Luoqi Liu, Ting Liu,
Abstract要約: 画像とプロンプトを完全に統合し,グローバルかつローカルにプロンプトする2段階改良フレームワークを提案する。第一段階のGlobalDiff Refinerは、画像全体とプロンプトを組み合わせた軽量のアーリーフュージョンネットワークだ。第2ステージのPatchDiff Refinerは、マスクに従ってオブジェクトの詳細ウィンドウを特定してプロンプトし、オブジェクトのローカル詳細を洗練します。
参考スコア（独自算出の注目度）: 14.937761564543239
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of the Segment Anything Model (SAM) marks a significant milestone for interactive segmentation using generalist models. As a late fusion model, SAM extracts image embeddings once and merges them with prompts in later interactions. This strategy limits the models ability to extract detailed information from the prompted target zone. Current specialist models utilize the early fusion strategy that encodes the combination of images and prompts to target the prompted objects, yet repetitive complex computations on the images result in high latency. The key to these issues is efficiently synergizing the images and prompts. We propose SAM-REF, a two-stage refinement framework that fully integrates images and prompts globally and locally while maintaining the accuracy of early fusion and the efficiency of late fusion. The first-stage GlobalDiff Refiner is a lightweight early fusion network that combines the whole image and prompts, focusing on capturing detailed information for the entire object. The second-stage PatchDiff Refiner locates the object detail window according to the mask and prompts, then refines the local details of the object. Experimentally, we demonstrated the high effectiveness and efficiency of our method in tackling complex cases with multiple interactions. Our SAM-REF model outperforms the current state-of-the-art method in most metrics on segmentation quality without compromising efficiency.
Abstract（参考訳）: Segment Anything Model (SAM) の出現は、ジェネラリストモデルを用いた対話的セグメンテーションにおいて重要なマイルストーンとなる。後期融合モデルとして、SAMはイメージ埋め込みを一度抽出し、後続の相互作用においてプロンプトとマージする。この戦略は、誘導されたターゲットゾーンから詳細な情報を抽出する能力を制限する。現在のスペシャリストモデルは、画像の組み合わせを符号化し、引き起こされたオブジェクトをターゲットにするよう促す初期の融合戦略を利用するが、画像上の反復的な複雑な計算は高いレイテンシをもたらす。これらの問題の鍵は、画像とプロンプトを効率的に同期させることである。我々は,早期核融合の精度と後期核融合の効率を維持しつつ,画像とプロンプトを完全に統合し,グローバルおよびローカルにプロンプトする2段階リファインメントフレームワークSAM-REFを提案する。第一段階のGlobalDiff Refinerは、画像全体とプロンプトを組み合わせ、オブジェクト全体の詳細な情報をキャプチャする軽量のアーリーフュージョンネットワークである。第2ステージのPatchDiff Refinerは、マスクに従ってオブジェクトの詳細ウィンドウを特定してプロンプトし、オブジェクトのローカル詳細を洗練します。実験により,複数の相互作用を持つ複雑なケースに対処する上で,本手法の有効性と効率を実証した。我々のSAM-REFモデルは、効率を損なうことなくセグメンテーション品質に関するほとんどの指標において、最先端の手法よりも優れています。

関連論文リスト

Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文参考訳（メタデータ） (2025-03-03T06:16:31Z)
Rethinking Early-Fusion Strategies for Improved Multimodal Image Segmentation [7.757018983487103]
本稿では,早期融合戦略と,効率的なRGB-Tセマンティックセマンティックセマンティックセマンティクスのトレーニングのための簡易かつ効果的な特徴クラスタリングに基づく,新しいマルチモーダル融合ネットワーク(EFNet)を提案する。提案手法の有効性を異なるデータセットで検証し,より低いパラメータと計算量で従来の最先端手法より優れていることを示す。
論文参考訳（メタデータ） (2025-01-19T06:16:45Z)
Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。 DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文参考訳（メタデータ） (2024-10-16T06:28:49Z)
FusionSAM: Latent Space driven Segment Anything Model for Multimodal Fusion and Segmentation [37.74045675588487]
SAMをマルチモーダル画像セグメンテーションに初めて導入する。本稿では、SAMのマルチモーダル融合とセグメンテーション機能を強化するために、LSTG(Latent Space Token Generation)とFMP(Fusion Mask Prompting)モジュールを組み合わせた新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-26T02:20:55Z)
FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。 2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文参考訳（メタデータ） (2024-05-29T02:34:13Z)
MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文参考訳（メタデータ） (2024-04-24T07:38:14Z)
TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven Image Fusion Network [2.7387720378113554]
我々は、TSJNetと呼ばれるターゲットおよびセマンティック・アウェアネス駆動型核融合ネットワークを導入する。一連の構造に配置された核融合、検出、セグメンテーションを含む。視覚的に快く融合した結果を生成することができ、それぞれ2.84%と7.47%のオブジェクト検出とセグメンテーションのmAP @0.5とmIoUが平均的に増加する。
論文参考訳（メタデータ） (2024-02-02T08:37:38Z)
Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文参考訳（メタデータ） (2023-08-04T01:03:58Z)
MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文参考訳（メタデータ） (2023-07-18T11:26:02Z)
Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文参考訳（メタデータ） (2023-07-10T17:59:40Z)
A Task-guided, Implicitly-searched and Meta-initialized Deep Model for Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文参考訳（メタデータ） (2023-05-25T08:54:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。