論文の概要: SAM-PTx: Text-Guided Fine-Tuning of SAM with Parameter-Efficient, Parallel-Text Adapters
- arxiv url: http://arxiv.org/abs/2508.00213v1
- Date: Thu, 31 Jul 2025 23:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.688277
- Title: SAM-PTx: Text-Guided Fine-Tuning of SAM with Parameter-Efficient, Parallel-Text Adapters
- Title(参考訳): SAM-PTx:パラメータ効率の良いパラレルテキストアダプタを用いたSAMのテキストガイドファインタニング
- Authors: Shayan Jalilian, Abdul Bais,
- Abstract要約: 本稿では,冷凍CLIP由来のテキスト埋め込みをクラスレベルのセマンティックガイダンスとして用いたSAM-PTxを提案する。
具体的には,SAMのイメージにテキスト埋め込みを注入し,セマンティクスによるセグメンテーションを可能にするParallel-Textという軽量アダプタを提案する。
固定テキスト埋め込みを入力として組み込むことで、純粋に空間的なプロンプトベースラインよりもセグメンテーション性能が向上することを示す。
- 参考スコア(独自算出の注目度): 0.5755004576310334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM) has demonstrated impressive generalization in prompt-based segmentation. Yet, the potential of semantic text prompts remains underexplored compared to traditional spatial prompts like points and boxes. This paper introduces SAM-PTx, a parameter-efficient approach for adapting SAM using frozen CLIP-derived text embeddings as class-level semantic guidance. Specifically, we propose a lightweight adapter design called Parallel-Text that injects text embeddings into SAM's image encoder, enabling semantics-guided segmentation while keeping most of the original architecture frozen. Our adapter modifies only the MLP-parallel branch of each transformer block, preserving the attention pathway for spatial reasoning. Through supervised experiments and ablations on the COD10K dataset as well as low-data subsets of COCO and ADE20K, we show that incorporating fixed text embeddings as input improves segmentation performance over purely spatial prompt baselines. To our knowledge, this is the first work to use text prompts for segmentation on the COD10K dataset. These results suggest that integrating semantic conditioning into SAM's architecture offers a practical and scalable path for efficient adaptation with minimal computational complexity.
- Abstract(参考訳): Segment Anything Model (SAM)は、プロンプトベースセグメンテーションにおける印象的な一般化を実証している。
しかし、意味的テキストプロンプトのポテンシャルは、ポイントやボックスのような伝統的な空間的プロンプトと比較すると、未解明のままである。
本稿では,冷凍CLIP由来のテキスト埋め込みをクラスレベルのセマンティックガイダンスとして用いたSAM-PTxを提案する。
具体的には,SAMのイメージエンコーダにテキスト埋め込みを注入するParallel-Textという,軽量なアダプタ設計を提案する。
本アダプタは,各変圧器ブロックのMLP並列分岐のみを修正し,空間的推論のための注意経路を保存する。
COD10KデータセットとCOCOとADE20Kの低データサブセットに関する教師付き実験と改善を通じて、入力として固定テキスト埋め込みを組み込むことで、純粋に空間的なプロンプトベースラインよりもセグメンテーション性能が向上することを示す。
私たちの知る限り、COD10Kデータセットのセグメンテーションにテキストプロンプトを使用するのは、これが初めてです。
これらの結果は,セマンティックコンディショニングをSAMのアーキテクチャに統合することで,最小計算量で効率的な適応を実現するための実践的かつスケーラブルな経路が提供されることを示唆している。
関連論文リスト
- Talk2SAM: Text-Guided Semantic Enhancement for Complex-Shaped Object Segmentation [0.0]
本研究では,オブジェクトセグメンテーションを改善するためにテキストガイダンスを統合する新しいアプローチであるTalk2SAMを提案する。
ユーザが提供するテキストプロンプトから派生したCLIPベースの埋め込みを使用して、関連する意味領域を識別する。
Talk2SAMはSAM-HQを一貫して上回り、IoUは+5.9%、IoUは+8.3%である。
論文 参考訳(メタデータ) (2025-06-03T19:53:10Z) - Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation [72.28364940168092]
オープン語彙セマンティックセグメンテーションモデルは、視覚とテキストを関連付け、テキストクエリを使用して未定義のクラスの集合からピクセルをラベル付けする。
本稿では,セマンティックライブラリ適応(Semantic Library Adaptation, SemLA)を紹介する。
論文 参考訳(メタデータ) (2025-03-27T17:59:58Z) - Char-SAM: Turning Segment Anything Model into Scene Text Segmentation Annotator with Character-level Visual Prompts [12.444549174054988]
Char-SAMはSAMを、文字レベルのビジュアルプロンプトを備えた低コストセグメンテーションアノテータに変換するパイプラインである。
Char-SAMは、高品質なシーンテキストセグメンテーションアノテーションを自動生成する。
そのトレーニング不要な性質により、COCO-TextやMLT17といった現実世界のデータセットから高品質なシーンテキストセグメンテーションデータセットを生成することもできる。
論文 参考訳(メタデータ) (2024-12-27T20:33:39Z) - Effective SAM Combination for Open-Vocabulary Semantic Segmentation [24.126307031048203]
Open-vocabulary semantic segmentationは、無制限のクラスにわたる画像にピクセルレベルのラベルを割り当てることを目的としている。
ESC-Netは、SAMデコーダブロックを利用してクラスに依存しないセグメンテーションを行う新しい1段オープン語彙セグメンテーションモデルである。
ESC-NetはADE20K、PASCAL-VOC、PASCAL-Contextなどの標準ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-11-22T04:36:12Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation [97.90960864892966]
本稿では,階層的テキストセグメンテーションにSAMを活用する統一モデルであるHi-SAMを紹介する。
Hi-SAMは、ピクセルレベルのテキスト、単語、テキスト行、段落を含む4つの階層にまたがるセグメンテーションが優れている。
HierTextのジョイント階層検出とレイアウト解析の以前のスペシャリストと比較して、Hi-SAMは大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-31T15:10:29Z) - Learning to Prompt Segment Anything Models [55.805816693815835]
Segment Anything Models (SAM)は、何かをセグメント化する学習において大きな可能性を実証している。
SAMは、空間的プロンプト(例えば、点)と意味的プロンプト(例えば、テキスト)を含む2種類のプロンプトで動作する。
より優れたSAMのための効果的な意味と空間的プロンプトを学習する空間意味的プロンプト学習(SSPrompt)を提案する。
論文 参考訳(メタデータ) (2024-01-09T16:24:25Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Composable Text Controls in Latent Space with ODEs [97.12426987887021]
本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための,新しい効率的なアプローチを提案する。
事前学習したLMを効率よく適応することで、サンプルベクトルを所望のテキストシーケンスにデコードする。
実験により、我々のアプローチ内でこれらの演算子を構成すると、高品質なテキストの生成や編集が可能であることが示された。
論文 参考訳(メタデータ) (2022-08-01T06:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。