Fugu-MT 論文翻訳(概要): PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation

論文の概要: PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation

arxiv url: http://arxiv.org/abs/2401.13051v1
Date: Tue, 23 Jan 2024 19:20:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 16:17:11.064494
Title: PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation
Title（参考訳）: PA-SAM:高画質画像セグメンテーションのためのプロンプトアダプタSAM
Authors: Zhaozhi Xie, Bochen Guan, Weihao Jiang, Muyang Yi, Yue Ding, Hongtao Lu, Lei Zhang
Abstract要約: 本稿では,新しいプロンプト駆動型アダプタであるPrompt Adapter Segment Anything Model(PA-SAM)を紹介する。 PA-SAMはプロンプトアダプタを専用にトレーニングすることで、画像から詳細な情報を抽出し、スパースレベルとディーププロンプトレベルの両方でマスクデコーダ機能を最適化する。実験の結果,PA-SAMは他のSAM法よりも高品質,ゼロショット,オープンセットのセグメンテーションで優れていた。
参考スコア（独自算出の注目度）: 19.65118388712439
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The Segment Anything Model (SAM) has exhibited outstanding performance in various image segmentation tasks. Despite being trained with over a billion masks, SAM faces challenges in mask prediction quality in numerous scenarios, especially in real-world contexts. In this paper, we introduce a novel prompt-driven adapter into SAM, namely Prompt Adapter Segment Anything Model (PA-SAM), aiming to enhance the segmentation mask quality of the original SAM. By exclusively training the prompt adapter, PA-SAM extracts detailed information from images and optimizes the mask decoder feature at both sparse and dense prompt levels, improving the segmentation performance of SAM to produce high-quality masks. Experimental results demonstrate that our PA-SAM outperforms other SAM-based methods in high-quality, zero-shot, and open-set segmentation. We're making the source code and models available at https://github.com/xzz2/pa-sam.
Abstract（参考訳）: Segment Anything Model (SAM) は様々な画像分割タスクにおいて優れた性能を示した。 10億以上のマスクでトレーニングされているにも関わらず、SAMは多くのシナリオ、特に現実世界のコンテキストにおいてマスク予測品質の課題に直面している。本稿では,Pmpt Adapter Segment Anything Model (PA-SAM) をSAMに導入し,元のSAMのセグメンテーションマスクの品質を高めることを目的とした。 PA-SAMは、プロンプトアダプタを専用にトレーニングすることで、画像から詳細な情報を抽出し、スパースレベルとディーププロンプトレベルの両方でマスクデコーダ機能を最適化し、SAMのセグメンテーション性能を改善して高品質なマスクを生成する。実験の結果,PA-SAMは他のSAM法よりも高品質,ゼロショット,オープンセットのセグメンテーションで優れていた。ソースコードとモデルをhttps://github.com/xzz2/pa-samで公開しています。

関連論文リスト

DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文参考訳（メタデータ） (2025-04-16T13:41:59Z)
Tuning a SAM-Based Model with Multi-Cognitive Visual Adapter to Remote Sensing Instance Segmentation [4.6570959687411975]
Segment Anything Model (SAM) は例外的な一般化能力を示す。 SAMは大規模なリモートセンシング画像の事前トレーニングを欠いているため、インタラクティブな構造は自動マスク予測能力を制限している。マルチ認知SAMベースインスタンスモデル (MC-SAM SEG) を導入し, リモートセンシング領域にSAMを採用する。 MC-SAM SEG と呼ばれる提案手法は,SAM-Mona エンコーダの微調整と特徴アグリゲータによって高品質な特徴を抽出する。
論文参考訳（メタデータ） (2024-08-16T07:23:22Z)
Crowd-SAM: SAM as a Smart Annotator for Object Detection in Crowded Scenes [18.244508068200236]
Crowd-SAMは、混み合ったシーンでSAMのパフォーマンスを高めるために設計されたフレームワークである。混み合ったシーンにおけるマスク選択と精度を高めるために,効率的なプロンプトサンプリング (EPS) とPWD-Net (Part-whole discrimination network) を導入する。 Crowd-SAMは、CrowdHumanやCityPersonsなどいくつかのベンチマークにおいて、最先端のSOTA(State-of-the-art)と競合する。
論文参考訳（メタデータ） (2024-07-16T08:00:01Z)
MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文参考訳（メタデータ） (2024-04-24T07:38:14Z)
MaskSAM: Towards Auto-prompt SAM with Mask Classification for Volumetric Medical Image Segmentation [17.25946659884426]
医用画像セグメンテーションのためのマスク分類プロンプトフリーフレームワークであるMaskSAMを提案する。本手法は,AMOS2022,90.52%のDice上での最先端性能を実現し,nnUNetに比べて2.7%向上した。
論文参考訳（メタデータ） (2024-03-21T03:28:24Z)
PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:03Z)
WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文参考訳（メタデータ） (2024-03-14T10:30:43Z)
Promoting Segment Anything Model towards Highly Accurate Dichotomous Image Segmentation [11.133337712285424]
本研究では,精度の高いオブジェクトセグメンテーションに向けてSegment Anything Model(SAM)を前進させるdis-SAMを提案する。 DIS-SAMは2段階のアプローチを採用しており、以前はプロンプトフリーのdisタスクを扱うように設計されていた改良されたアドバンストネットワークとSAMを統合している。 DIS-SAMは単純さにもかかわらずSAM、HQ-SAM、Pi-SAMを8.5%、最大で6.9%、最大で3.7%向上させる。
論文参考訳（メタデータ） (2023-12-30T14:24:33Z)
EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。本稿では,軽量なSAMモデルであるEfficientSAMを提案する。我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文参考訳（メタデータ） (2023-12-01T18:31:00Z)
Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。 1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文参考訳（メタデータ） (2023-11-27T12:51:42Z)
AutoSAM: Adapting SAM to Medical Images by Overloading the Prompt Encoder [101.28268762305916]
この作業では、Segment Anything Modelを同じ入力イメージで動作するエンコーダに置き換える。複数の医用画像とビデオのベンチマークで最先端の結果を得る。内部の知識を検査し、軽量なセグメンテーションソリューションを提供するために、浅いデコンボリューションネットワークによってマスクに復号化することを学ぶ。
論文参考訳（メタデータ） (2023-06-10T07:27:00Z)
Segment Anything in High Quality [116.39405160133315]
そこで本研究では,SAM のプロンプト可能な設計,効率,ゼロショットの一般化性を維持しつつ,任意のオブジェクトを正確にセグメント化できる HQ-SAM を提案する。注意深い設計はSAMの事前訓練されたモデルの重みを再利用し、保存し、最小限の追加パラメータと計算しか導入しない。ダウンストリームタスクにまたがる10種類のセグメンテーションデータセットでHQ-SAMの有効性を示し,そのうち8つをゼロショット転送プロトコルで評価した。
論文参考訳（メタデータ） (2023-06-02T14:23:59Z)
Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。 PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。 PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文参考訳（メタデータ） (2023-05-04T17:59:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。