論文の概要: AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.00480v1
- Date: Sat, 1 Jun 2024 16:21:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 06:55:04.483850
- Title: AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning
- Title(参考訳): AlignSAM: 強化学習によるセグメンテーションモデルからオープンコンテキストへ
- Authors: Duojun Huang, Xinyu Xiong, Jie Ma, Jichang Li, Zequn Jie, Lin Ma, Guanbin Li,
- Abstract要約: Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
- 参考スコア(独自算出の注目度): 61.666973416903005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Powered by massive curated training data, Segment Anything Model (SAM) has demonstrated its impressive generalization capabilities in open-world scenarios with the guidance of prompts. However, the vanilla SAM is class agnostic and heavily relies on user-provided prompts to segment objects of interest. Adapting this method to diverse tasks is crucial for accurate target identification and to avoid suboptimal segmentation results. In this paper, we propose a novel framework, termed AlignSAM, designed for automatic prompting for aligning SAM to an open context through reinforcement learning. Anchored by an agent, AlignSAM enables the generality of the SAM model across diverse downstream tasks while keeping its parameters frozen. Specifically, AlignSAM initiates a prompting agent to iteratively refine segmentation predictions by interacting with the foundational model. It integrates a reinforcement learning policy network to provide informative prompts to the foundational models. Additionally, a semantic recalibration module is introduced to provide fine-grained labels of prompts, enhancing the model's proficiency in handling tasks encompassing explicit and implicit semantics. Experiments conducted on various challenging segmentation tasks among existing foundation models demonstrate the superiority of the proposed AlignSAM over state-of-the-art approaches. Project page: \url{https://github.com/Duojun-Huang/AlignSAM-CVPR2024}.
- Abstract(参考訳): 大規模な訓練データを活用したSAM(Segment Anything Model)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化能力を実証した。
しかしながら、vanilla SAMはクラス非依存であり、興味のあるオブジェクトをセグメントするユーザーが提供するプロンプトに大きく依存している。
この手法を多様なタスクに適応させることは、正確な目標同定と、最適部分分割結果の回避に不可欠である。
本稿では,新しいフレームワークAlignSAMを提案する。このフレームワークは,強化学習を通じてSAMをオープンなコンテキストに整合させるための自動プロンプトを設計したものである。
エージェントによって書かれたAlignSAMは、パラメータを凍結させながら、さまざまな下流タスクにわたるSAMモデルの一般化を可能にする。
具体的には、AlignSAMは、基礎モデルと相互作用することで分割予測を反復的に洗練させるプロンプトエージェントを開始する。
強化学習政策ネットワークを統合し、基礎モデルに情報を提供する。
さらに、セマンティックリカレーションモジュールを導入して、プロンプトのきめ細かいラベルを提供し、明示的で暗黙的なセマンティクスを含むタスクを扱うモデルの習熟度を高める。
既存の基礎モデル間の様々な挑戦的セグメンテーションタスクで実施された実験は、最先端のアプローチよりも提案されたAlignSAMの優位性を実証している。
プロジェクトページ: \url{https://github.com/Duojun-Huang/AlignSAM-CVPR2024}。
関連論文リスト
- There is no SAMantics! Exploring SAM as a Backbone for Visual Understanding Tasks [15.061599989448867]
Segment Anything Model (SAM) はもともとラベルに依存しないマスク生成のために設計された。
分類タスクにおけるベース画像エンコーダの有効性を比較することにより,SAMのセマンティック能力の定量化を図る。
その結果,SAM特徴表現における意味的識別性の欠如が明らかとなった。
論文 参考訳(メタデータ) (2024-11-22T17:00:18Z) - SAM-SP: Self-Prompting Makes SAM Great Again [11.109389094334894]
Segment Anything Model (SAM)は、ゼロショットセグメンテーションタスクにおいて印象的な機能を示した。
SAMは、医療画像などの特定の領域に適用した場合、顕著な劣化性能に遭遇する。
本稿では,バニラSAMモデルの拡張に適したSAM-SPという,自己プロンプトに基づくファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T13:03:05Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation
based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。
これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。
また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文 参考訳(メタデータ) (2023-06-28T14:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。