論文の概要: Prompt-Based Segmentation at Multiple Resolutions and Lighting Conditions using Segment Anything Model 2
- arxiv url: http://arxiv.org/abs/2408.06970v2
- Date: Thu, 15 Aug 2024 13:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 12:40:10.664564
- Title: Prompt-Based Segmentation at Multiple Resolutions and Lighting Conditions using Segment Anything Model 2
- Title(参考訳): セグメンテーションモデル2を用いた複数解像度・照明条件でのプロンプトベースセグメンテーション
- Authors: Osher Rafaeli, Tal Svoray, Roni Blushtein-Livnon, Ariel Nahlieli,
- Abstract要約: 本稿では,ゼロショット型,プロンプト型セグメンテーションモデル(SAM)とその更新版SAM2の有効性について考察する。
SAM 2はSAMよりも改善され、特に点によって誘導される場合の準最適照明条件において顕著である。
高解像度の画像では、最適条件と準最適条件の両方において、Eff-UNetはYOLOv9ボックスによって引き起こされたSAMモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides insight into the effectiveness of zero-shot, prompt-based, Segment Anything Model (SAM), and its updated version, SAM 2, and the non-promptable, conventional convolutional network (CNN), in segmenting solar panels, in RGB aerial imagery, across lighting conditions, spatial resolutions, and prompt strategies. SAM 2 demonstrates improvements over SAM, particularly in sub-optimal lighting conditions when prompted by points. Both SAMs, prompted by user-box, outperformed CNN, in all scenarios. Additionally, YOLOv9 prompting outperformed user points prompting. In high-resolution imagery, both in optimal and sub-optimal lighting conditions, Eff-UNet outperformed both SAM models prompted by YOLOv9 boxes, positioning Eff-UNet as the appropriate model for automatic segmentation in high-resolution data. In low-resolution data, user box prompts were found crucial to achieve a reasonable performance. This paper provides details on strengths and limitations of each model and outlines robustness of user prompted image segmentation models in inconsistent resolution and lighting conditions of remotely sensed data.
- Abstract(参考訳): 本稿では,ゼロショット型,プロンプト型,セグメント型,セグメント型,セグメント型モデル(SAM)とその更新版であるSAM 2と,太陽電池のセグメンテーション,RGB空中画像におけるセグメンテーション,照明条件,空間解像度,プロンプト戦略における従来の畳み込みネットワーク(CNN)の有効性について考察する。
SAM 2はSAMよりも改善され、特に点によって誘導される場合の準最適照明条件において顕著である。
SAMは、ユーザーボックスによって誘導され、すべてのシナリオでCNNを上回った。
さらに、YOLOv9はパフォーマンスのよいユーザーポイントをプロンプトする。
高解像度画像では、最適照明条件と準最適照明条件の両方において、Eff-UNetはYOLOv9ボックスによって誘導されるSAMモデルよりも優れており、高解像度データにおける自動セグメンテーションの適切なモデルとして位置づけられている。
低解像度のデータでは、ユーザボックスプロンプトが合理的なパフォーマンスを達成するために不可欠であることが判明した。
本稿では,各モデルの長所と短所について詳述し,ユーザによる画像分割モデルの無矛盾な解像度およびリモートセンシングデータの照明条件における堅牢性について概説する。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - SAM-REF: Rethinking Image-Prompt Synergy for Refinement in Segment Anything [14.937761564543239]
画像とプロンプトを完全に統合し,グローバルかつローカルにプロンプトする2段階改良フレームワークを提案する。
第一段階のGlobalDiff Refinerは、画像全体とプロンプトを組み合わせた軽量のアーリーフュージョンネットワークだ。
第2ステージのPatchDiff Refinerは、マスクに従ってオブジェクトの詳細ウィンドウを特定してプロンプトし、オブジェクトのローカル詳細を洗練します。
論文 参考訳(メタデータ) (2024-08-21T11:18:35Z) - From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - Evaluating SAM2's Role in Camouflaged Object Detection: From SAM to SAM2 [10.751277821864916]
報告によると、SAM2のオートモードでのプロンプトなしで、画像内の異なるオブジェクトを知覚する能力は低下している。
具体的には, この性能低下を評価するために, カモフラージュされた物体検出の課題を用いる。
論文 参考訳(メタデータ) (2024-07-31T13:32:10Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning
of SAM [37.1263294647351]
BLO-SAMを導入し、二段階最適化(BLO)に基づいてSAM(Segment Anything Model)を微調整する。
BLO-SAMは、モデルの重みパラメータのトレーニングと、トレーニングデータセットの2つの別々のサブセットへの迅速な埋め込みによって、過適合のリスクを低減する。
その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-26T06:36:32Z) - BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model [65.92173280096588]
我々は,Segment Anything Model (SAM)における画像分解能変動の課題に対処する。
SAMはゼロショットの汎用性で知られており、さまざまな画像サイズを持つデータセットに直面するとパフォーマンスが低下する。
我々は、各トークンが隣り合う情報を優先順位付けできるバイアスモードのアテンションマスクを提案する。
論文 参考訳(メタデータ) (2024-01-04T15:34:44Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。