Fugu-MT 論文翻訳(概要): MGD-SAM2: Multi-view Guided Detail-enhanced Segment Anything Model 2 for High-Resolution Class-agnostic Segmentation

論文の概要: MGD-SAM2: Multi-view Guided Detail-enhanced Segment Anything Model 2 for High-Resolution Class-agnostic Segmentation

arxiv url: http://arxiv.org/abs/2503.23786v1
Date: Mon, 31 Mar 2025 07:02:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:57.296247
Title: MGD-SAM2: Multi-view Guided Detail-enhanced Segment Anything Model 2 for High-Resolution Class-agnostic Segmentation
Title（参考訳）: MGD-SAM2:高分解能クラス非依存セグメンテーションのための多視点詳細拡張セグメンテーションモデル2
Authors: Haoran Shen, Peixian Zhuang, Jiahao Kou, Yuxin Zeng, Haoying Xu, Jiangyun Li,
Abstract要約: MGD-SAM2は、SAM2とグローバルイメージとローカルパッチ間のマルチビュー特徴相互作用を統合し、正確なセグメンテーションを実現する。 HRCS画像の局所的詳細や大域的意味を抽出するために,まずMPAdapterを導入し,SAM2エンコーダを適応させる。そこで, MCEM と HMIM は, 局所的なテクスチャとグローバルなコンテキストをさらに活用するために, マルチスケールにおける多視点特徴を集約することを提案する。
参考スコア（独自算出の注目度）: 6.976534642198541
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Segment Anything Models (SAMs), as vision foundation models, have demonstrated remarkable performance across various image analysis tasks. Despite their strong generalization capabilities, SAMs encounter challenges in fine-grained detail segmentation for high-resolution class-independent segmentation (HRCS), due to the limitations in the direct processing of high-resolution inputs and low-resolution mask predictions, and the reliance on accurate manual prompts. To address these limitations, we propose MGD-SAM2 which integrates SAM2 with multi-view feature interaction between a global image and local patches to achieve precise segmentation. MGD-SAM2 incorporates the pre-trained SAM2 with four novel modules: the Multi-view Perception Adapter (MPAdapter), the Multi-view Complementary Enhancement Module (MCEM), the Hierarchical Multi-view Interaction Module (HMIM), and the Detail Refinement Module (DRM). Specifically, we first introduce MPAdapter to adapt the SAM2 encoder for enhanced extraction of local details and global semantics in HRCS images. Then, MCEM and HMIM are proposed to further exploit local texture and global context by aggregating multi-view features within and across multi-scales. Finally, DRM is designed to generate gradually restored high-resolution mask predictions, compensating for the loss of fine-grained details resulting from directly upsampling the low-resolution prediction maps. Experimental results demonstrate the superior performance and strong generalization of our model on multiple high-resolution and normal-resolution datasets. Code will be available at https://github.com/sevenshr/MGD-SAM2.
Abstract（参考訳）: Segment Anything Models (SAM) は、視覚基盤モデルとして、様々な画像解析タスクにまたがる顕著なパフォーマンスを実証している。その強力な一般化能力にもかかわらず、SAMは高解像度のクラス独立セグメンテーション(HRCS)の細かな詳細セグメンテーションの課題に直面する。これらの制約に対処するため,グローバルイメージとローカルパッチ間の多視点特徴相互作用とSAM2を統合し,正確なセグメンテーションを実現するMGD-SAM2を提案する。 MGD-SAM2には、Multi-view Perception Adapter (MPAdapter)、Multi-view Complementary Enhancement Module (MCEM)、Hierarchical Multi-view Interaction Module (HMIM)、Detail Refinement Module (DRM)の4つの新しいモジュールが組み込まれている。具体的には、まずMPAdapterを導入し、SAM2エンコーダを適応させ、HRCS画像の局所的な詳細や大域的な意味を抽出する。そこで, MCEM と HMIM は, 局所的なテクスチャとグローバルなコンテキストをさらに活用するために, マルチスケールにおける多視点特徴を集約することを提案する。最後に、DRMは徐々に復元された高解像度のマスク予測を生成するように設計されており、低解像度の予測マップを直接アップサンプリングした結果、細かな詳細が失われることを補う。実験により,複数の高分解能・高分解能データセット上でのモデルの性能向上と強力な一般化が示された。コードはhttps://github.com/sevenshr/MGD-SAM2.comから入手できる。

関連論文リスト

SAM2-UNeXT: An Improved High-Resolution Baseline for Adapting Foundation Models to Downstream Segmentation Tasks [50.97089872043121]
SAM2-UNeXTはSAM2-UNetの中核となる原理を基盤とした高度なフレームワークである。我々は、補助的なDINOv2エンコーダの統合によりSAM2の表現能力を拡張する。我々のアプローチは、単純なアーキテクチャでより正確なセグメンテーションを可能にし、複雑なデコーダ設計の必要性を緩和する。
論文参考訳（メタデータ） (2025-08-05T15:36:13Z)
A Large-Scale Referring Remote Sensing Image Segmentation Dataset and Benchmark [8.707197692292292]
これまでで最も大きく多様なRRSISデータセットであるNWPU-Referを導入し、49,745個の注釈付きターゲットを持つ30か国にまたがる15,003個の高解像度画像(1024-2048px)を含む。また、RRSISのユニークな要求に対応する新しいフレームワークであるMulti-scale Referring Network (MRSNet)を提案する。
論文参考訳（メタデータ） (2025-06-04T05:26:51Z)
MemorySAM: Memorize Modalities and Semantics with Segment Anything Model 2 for Multi-modal Semantic Segmentation [22.482211353379927]
大型ビジョンモデルであるAnythingCube Model 2 (SAM2)は、画像とビデオの両方でゼロショットセグメンテーション性能が強い。ビデオにおけるクロスフレーム相関に着想を得て,同一シーンを表すフレームの列としてマルチモーダルデータを扱うことを提案する。私たちのキーとなるアイデアは、モダリティに依存しない情報を「記憶」し、ターゲットのシーンに関連する意味を「記憶」することです。
論文参考訳（メタデータ） (2025-03-09T17:33:15Z)
UrbanSAM: Learning Invariance-Inspired Adapters for Segment Anything Models in Urban Construction [51.54946346023673]
都市形態は本質的に複雑で、様々な形状と様々なスケールの不規則な物体がある。 Segment Anything Model (SAM) は複雑なシーンのセグメンテーションにおいて大きな可能性を示している。本研究では,複雑な都市環境の分析に特化して設計されたSAMのカスタマイズ版であるUrbanSAMを提案する。
論文参考訳（メタデータ） (2025-02-21T04:25:19Z)
MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文参考訳（メタデータ） (2024-10-15T00:52:16Z)
Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文参考訳（メタデータ） (2024-08-27T13:47:31Z)
Segment Anything with Multiple Modalities [61.74214237816402]
我々は,異なるセンサスイートによる堅牢で拡張されたセグメンテーションのために,クロスモーダルおよびマルチモーダル処理をサポートするMM-SAMを開発した。 MM-SAMは、教師なしのクロスモーダル転送と弱い教師付きマルチモーダル融合という、2つの重要な設計を特徴としている。 1)単一モーダル処理のための多様な非RGBセンサへの適応,2)センサ融合によるマルチモーダルデータの相乗的処理,3)異なる下流タスクのためのマスクフリートレーニング,の3つの課題に対処する。
論文参考訳（メタデータ） (2024-08-17T03:45:40Z)
Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文参考訳（メタデータ） (2024-08-08T09:09:37Z)
INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文参考訳（メタデータ） (2024-07-23T06:02:30Z)
MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文参考訳（メタデータ） (2024-04-24T07:38:14Z)
WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文参考訳（メタデータ） (2024-03-14T10:30:43Z)
Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文参考訳（メタデータ） (2023-07-10T17:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。