論文の概要: AffordanceSAM: Segment Anything Once More in Affordance Grounding
- arxiv url: http://arxiv.org/abs/2504.15650v2
- Date: Mon, 25 Aug 2025 17:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.604853
- Title: AffordanceSAM: Segment Anything Once More in Affordance Grounding
- Title(参考訳): AffordanceSAM: Affordance Groundingのセグメンテーション
- Authors: Dengyang Jiang, Zanyi Wang, Hengzhuang Li, Sizhe Dang, Teli Ma, Wei Wei, Guang Dai, Lei Zhang, Mengmeng Wang,
- Abstract要約: 本稿では,セグメンテーションにおけるSAMの一般化能力を,アダランスグラウンド化にまで拡張するAffordanceSAMを提案する。
具体的には、アベイランス適応モジュールを設計し、C2F-Affと呼ばれる粗粒度アノテートデータセットをキュレートする。
AffordanceSAMはAGD20KベンチマークでSOTA(State-of-the-art)性能を達成した。
- 参考スコア(独自算出の注目度): 32.26556390306948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building a generalized affordance grounding model to identify actionable regions on objects is vital for real-world applications. Existing methods to train the model can be divided into weakly and fully supervised ways. However, the former method requires a complex training framework design and can not infer new actions without an auxiliary prior. While the latter often struggle with limited annotated data and components trained from scratch despite being simpler. This study focuses on fully supervised affordance grounding and overcomes its limitations by proposing AffordanceSAM, which extends SAM's generalization capacity in segmentation to affordance grounding. Specifically, we design an affordance-adaption module and curate a coarse-to-fine annotated dataset called C2F-Aff to thoroughly transfer SAM's robust performance to affordance in a three-stage training manner. Experimental results confirm that AffordanceSAM achieves state-of-the-art (SOTA) performance on the AGD20K benchmark and exhibits strong generalized capacity.
- Abstract(参考訳): オブジェクト上の動作可能な領域を特定するための汎用的な価格基盤モデルを構築することは、現実世界のアプリケーションにとって不可欠である。
既存のモデルのトレーニング方法は、弱く完全に教師された方法に分けられる。
しかし、従来の手法では複雑なトレーニングフレームワーク設計が必要であり、補助的な事前がなければ新しいアクションを推測することはできない。
後者は、よりシンプルであるにもかかわらず、スクラッチからトレーニングされた限られた注釈付きデータやコンポーネントに悩まされることが多い。
本研究は, セグメンテーションにおけるSAMの一般化能力を拡張したAffordanceSAMを提案し, その限界を克服するものである。
具体的には、アプライアンス適応モジュールを設計し、C2F-Affと呼ばれる粗大なアノテートデータセットをキュレートし、SAMの頑健な性能を3段階のトレーニング方法でフルに転送する。
AffordanceSAMはAGD20KベンチマークでSOTA(State-of-the-art)性能を達成し,高い一般化能力を示した。
関連論文リスト
- Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert [60.88976842557026]
VLM(Vision-Language Models)は、優れた計画と推論能力を示している。
最近の二重系アプローチは「思考」と「行動」を分離しようとする
一般化可能なアクションエキスパートを中心としたフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-10-04T18:33:27Z) - SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning [26.167394979565454]
画像理解タスクにおいて,マルチモーダルな大規模モデルによるきめ細かい推論を可能にする新しいフレームワークSAM-R1を提案する。
提案手法は,マルチモーダル推論モデルのトレーニングにおいて,よりきめ細かいセグメンテーション設定を取り入れた最初の手法である。
3kのトレーニングサンプルだけで、SAM-R1は複数のベンチマークで高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-05-28T17:08:28Z) - Promoting SAM for Camouflaged Object Detection via Selective Key Point-based Guidance [4.942726787539676]
本研究は,Segment Anything Model(SAM)を利用したCOD(Camouflaged Object Detection)に取り組む。
我々は,画像上の候補点における擬似物体の存在の確率を予測するために,マルチスケールの特徴を利用するプロモートポイントターゲティングネットワーク(PPT-net)を開発した。
CODのビッグデータを促進するための最初の取り組みであり、6つのメトリクスの3つのデータセット上の既存のメソッドに対して実験的に検証可能な結果が得られる。
論文 参考訳(メタデータ) (2025-05-14T04:09:28Z) - Focal-SAM: Focal Sharpness-Aware Minimization for Long-Tailed Classification [113.6840565194525]
実世界のデータセットは長い尾の分布に従うことが多く、尾のクラスへの一般化は困難である。
近年,ロスランドスケープを平坦化して一般化を改善するため,シャープネス・アウェア最小化法 (SAM) の長尾変種を利用した手法が提案されている。
クラスごとに異なる罰則を割り当てるFocal-SAMを導入し、余分なバックプロパゲーションを伴わずにきめ細かい制御を実現する。
論文 参考訳(メタデータ) (2025-05-03T03:01:28Z) - S^4M: Boosting Semi-Supervised Instance Segmentation with SAM [25.94737539065708]
半教師付きインスタンスセグメンテーションは、ラベル付きデータに制限があるため、課題を引き起こす。
現在の教師中心のフレームワークは、信頼性の低い擬似ラベルの品質のため、パフォーマンス上の制約に悩まされている。
論文 参考訳(メタデータ) (2025-04-07T17:59:10Z) - Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - Continual Learning for Segment Anything Model Adaptation [14.00191851894315]
本研究では,8つのタスク領域を持つ新しい連続SAM適応(CoSAM)ベンチマークを提案する。
そこで,本研究では,SAMエンコーダがタスク領域ごとによく区切られた特徴を抽出するのを支援するために,新しい単純なyet- Effective Mixture of Domain Adapters (MoDA)アルゴリズムを提案する。
我々のMoDAは自然画像領域において高い競争力を維持しており、オリジナルのSAMのゼロショット性能に近づいた。
論文 参考訳(メタデータ) (2024-12-09T11:51:28Z) - Distribution-aware Noisy-label Crack Segmentation [4.224255134206838]
本稿では,Segment Anything Model(SAM)の一般的な知識をひび割れセグメンテーションに取り入れたSAM-Adapterを紹介する。
SAM-Adapterの有効性は、小さなトレーニングセット内のノイズラベルによって制約される。
本稿では,SAM-Adapterの識別学習プロセスを導くために,分布認識ドメイン固有の意味知識を活用する,革新的な共同学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:29:47Z) - On Efficient Variants of Segment Anything Model: A Survey [63.127753705046]
Segment Anything Model (SAM) は画像分割タスクの基本モデルであり、多様なアプリケーションにまたがる強力な一般化で知られている。
これを解決するために、精度を保ちながら効率を高めるために様々なSAM変種が提案されている。
この調査は、これらの効率的なSAM変種に関する最初の包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-10-07T11:59:54Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - SAM-SP: Self-Prompting Makes SAM Great Again [11.109389094334894]
Segment Anything Model (SAM)は、ゼロショットセグメンテーションタスクにおいて印象的な機能を示した。
SAMは、医療画像などの特定の領域に適用した場合、顕著な劣化性能に遭遇する。
本稿では,バニラSAMモデルの拡張に適したSAM-SPという,自己プロンプトに基づくファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T13:03:05Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。