論文の概要: On the Effectiveness of Textual Prompting with Lightweight Fine-Tuning for SAM3 Remote Sensing Segmentation
- arxiv url: http://arxiv.org/abs/2512.15564v1
- Date: Wed, 17 Dec 2025 16:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.056673
- Title: On the Effectiveness of Textual Prompting with Lightweight Fine-Tuning for SAM3 Remote Sensing Segmentation
- Title(参考訳): SAM3リモートセンシングセグメンテーションにおける軽量ファインチューニングによるテキストプロンプティングの有効性について
- Authors: Roni Blushtein-Livnon, Osher Rafaeli, David Ioffe, Amir Boger, Karen Sandberg Esquenazi, Tal Svoray,
- Abstract要約: テキスト,幾何学的,ハイブリッドなプロンプト戦略を比較検討し,4種類のRS画像に対するSAM3の評価を行った。
その結果、意味と幾何学的手がかりを組み合わせることで、目標と指標をまたいだ最高のパフォーマンスが得られることがわかった。
PrecisionとIoUの断続的なギャップは、アンダーセグメンテーションとバウンダリの不正確さがRSタスクの一般的なエラーパターンのままであることを示している。
- 参考スコア(独自算出の注目度): 1.0993800728351737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing (RS) image segmentation is constrained by the limited availability of annotated data and a gap between overhead imagery and natural images used to train foundational models. This motivates effective adaptation under limited supervision. SAM3 concept-driven framework generates masks from textual prompts without requiring task-specific modifications, which may enable this adaptation. We evaluate SAM3 for RS imagery across four target types, comparing textual, geometric, and hybrid prompting strategies, under lightweight fine-tuning scales with increasing supervision, alongside zero-shot inference. Results show that combining semantic and geometric cues yields the highest performance across targets and metrics. Text-only prompting exhibits the lowest performance, with marked score gaps for irregularly shaped targets, reflecting limited semantic alignment between SAM3 textual representations and their overhead appearances. Nevertheless, textual prompting with light fine-tuning offers a practical performance-effort trade-off for geometrically regular and visually salient targets. Across targets, performance improves between zero-shot inference and fine-tuning, followed by diminishing returns as the supervision scale increases. Namely, a modest geometric annotation effort is sufficient for effective adaptation. A persistent gap between Precision and IoU further indicates that under-segmentation and boundary inaccuracies remain prevalent error patterns in RS tasks, particularly for irregular and less prevalent targets.
- Abstract(参考訳): リモートセンシング(RS)画像セグメンテーションは、注釈付きデータの限られた可用性と、基礎モデルのトレーニングに使用されるオーバーヘッド画像と自然画像とのギャップによって制限される。
これは限られた監督の下で効果的な適応を動機付ける。
SAM3の概念駆動フレームワークは、タスク固有の修正を必要とせず、テキストプロンプトからマスクを生成する。
テキスト,幾何学的,ハイブリッド的なプロンプト戦略を,軽量な微調整スケールで比較し,ゼロショット推論とともに,RS画像のSAM3を評価する。
その結果、意味と幾何学的手がかりを組み合わせることで、目標と指標をまたいだ最高のパフォーマンスが得られることがわかった。
テキストのみのプロンプトはパフォーマンスが最低であり、不規則な形状のターゲットに対してスコアギャップが顕著であり、SAM3テキスト表現とオーバーヘッドの外観とのセマンティックアライメントが限定されている。
それでも、ライトファインチューニングによるテキストのプロンプトは、幾何学的に規則的で視覚的に有能な目標に対して、実用的なパフォーマンスと努力のトレードオフを提供する。
ターゲット全体にわたって、ゼロショット推論と微調整の間のパフォーマンスが向上し、監視スケールが大きくなるにつれてリターンが低下する。
すなわち、適度な幾何学的アノテーションの取り組みは、効果的な適応には十分である。
PrecisionとIoUの間の永続的なギャップは、特に不規則であまり普及していないターゲットにおいて、RSタスクにおいて、アンダーセグメンテーションとバウンダリの不正確さが一般的なエラーパターンのままであることを示している。
関連論文リスト
- Dual-Granularity Semantic Prompting for Language Guidance Infrared Small Target Detection [102.1314414263959]
限られた特徴表現と厳しい背景干渉のため、赤外線小目標検出は依然として困難である。
エンドツーエンドの言語プロンプト駆動フレームワークであるDGSPNetを提案する。
提案手法は検出精度を大幅に向上し、3つのベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-24T16:58:23Z) - Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。
1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。
テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T07:49:31Z) - IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis [46.502962768034166]
Zero-shot Referring Imageは、トレーニングや微調整なしで参照式に最も適したインスタンスマスクを特定する。
従来のCLIPモデルでは、物体の相対的な空間的関係を識別する能力が顕著に低下していた。
IteRPrimEは従来の最先端のゼロショットメソッドよりも優れており、特にドメイン外のシナリオでは優れている。
論文 参考訳(メタデータ) (2025-03-02T15:19:37Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。