論文の概要: Prompt-Based Segmentation at Multiple Resolutions and Lighting Conditions using Segment Anything Model 2
- arxiv url: http://arxiv.org/abs/2408.06970v3
- Date: Wed, 01 Jan 2025 16:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 14:34:11.534836
- Title: Prompt-Based Segmentation at Multiple Resolutions and Lighting Conditions using Segment Anything Model 2
- Title(参考訳): セグメンテーションモデル2を用いた複数解像度・照明条件でのプロンプトベースセグメンテーション
- Authors: Osher Rafaeli, Tal Svoray, Roni Blushtein-Livnon, Ariel Nahlieli,
- Abstract要約: 本稿では,ゼロショット,プロンプトベースのセグメンテーションモデル(SAM)とその更新版であるSAM2とSAM2.1の有効性について検討する。
SAMモデルは、ユーザ定義のボックスによってトリガーされた場合、すべてのシナリオでCNNより優れています。
最適な照明で高解像度で、Eff-UNetはYOLOv9によって引き起こされたSAMよりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper provides insights on the effectiveness of the zero shot, prompt-based Segment Anything Model (SAM) and its updated versions, SAM 2 and SAM 2.1, along with the non-promptable conventional neural network (CNN), for segmenting solar panels in RGB aerial imagery. The study evaluates these models across diverse lighting conditions, spatial resolutions, and prompt strategies. SAM 2 showed slight improvements over SAM, while SAM 2.1 demonstrated notable improvements, particularly in sub-optimal lighting and low resolution conditions. SAM models, when prompted by user-defined boxes, outperformed CNN in all scenarios; in particular, user-box prompts were found crucial for achieving reasonable performance in low resolution data. Additionally, under high resolution, YOLOv9 automatic prompting outperformed user-points prompting by providing reliable prompts to SAM. Under low resolution, SAM 2.1 prompted by user points showed similar performance to SAM 2.1 prompted by YOLOv9, highlighting its zero shot improvements with a single click. In high resolution with optimal lighting imagery, Eff-UNet outperformed SAMs prompted by YOLOv9, while under sub-optimal lighting conditions, Eff-UNet, and SAM 2.1 prompted by YOLOv9, had similar performance. However, SAM is more resource-intensive, and despite improved inference time of SAM 2.1, Eff-UNet is more suitable for automatic segmentation in high resolution data. This research details strengths and limitations of each model and outlines the robustness of user-prompted image segmentation models.
- Abstract(参考訳): 本稿では,ゼロショット,プロンプトベースのセグメンテーションモデル(SAM)とその更新版であるSAM2とSAM2.1と,従来のニューラルネットワーク(CNN)を併用して,RGB空中画像におけるソーラーパネルのセグメンテーションの有効性について考察する。
この研究は、様々な照明条件、空間分解能、迅速な戦略でこれらのモデルを評価する。
SAM 2はSAMよりもわずかに改善され、SAM 2.1は特に準最適照明と低解像度条件において顕著に改善された。
SAMモデルは、ユーザ定義ボックスによって誘導される場合、すべてのシナリオにおいてCNNよりも優れており、特に低解像度データにおいて適切なパフォーマンスを達成するためには、ユーザボックスプロンプトが不可欠であることが判明した。
さらに、高解像度では、YOLOv9はSAMに信頼性の高いプロンプトを提供することにより、パフォーマンスの高いユーザポイントを自動でプロンプトする。
低解像度では、ユーザポイントによって引き起こされたSAM 2.1は、YOLOv9によって引き起こされたSAM 2.1と同じような性能を示し、1クリックでゼロショットの改善が強調された。
Eff-UNet は YOLOv9 が引き起こしたSAMよりも高解像度で、準最適照明条件下では Eff-UNet と SAM 2.1 は YOLOv9 が引き起こした。
しかし、SAMはリソース集約性が高く、SAM 2.1の推論時間が改善されたにもかかわらず、Eff-UNetは高解像度データの自動セグメンテーションに適している。
本研究は,各モデルの長所と短所を詳述し,ユーザが提案する画像分割モデルの堅牢性について概説する。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - SAM-REF: Rethinking Image-Prompt Synergy for Refinement in Segment Anything [14.937761564543239]
画像とプロンプトを完全に統合し,グローバルかつローカルにプロンプトする2段階改良フレームワークを提案する。
第一段階のGlobalDiff Refinerは、画像全体とプロンプトを組み合わせた軽量のアーリーフュージョンネットワークだ。
第2ステージのPatchDiff Refinerは、マスクに従ってオブジェクトの詳細ウィンドウを特定してプロンプトし、オブジェクトのローカル詳細を洗練します。
論文 参考訳(メタデータ) (2024-08-21T11:18:35Z) - From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - Evaluating SAM2's Role in Camouflaged Object Detection: From SAM to SAM2 [10.751277821864916]
報告によると、SAM2のオートモードでのプロンプトなしで、画像内の異なるオブジェクトを知覚する能力は低下している。
具体的には, この性能低下を評価するために, カモフラージュされた物体検出の課題を用いる。
論文 参考訳(メタデータ) (2024-07-31T13:32:10Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning
of SAM [37.1263294647351]
BLO-SAMを導入し、二段階最適化(BLO)に基づいてSAM(Segment Anything Model)を微調整する。
BLO-SAMは、モデルの重みパラメータのトレーニングと、トレーニングデータセットの2つの別々のサブセットへの迅速な埋め込みによって、過適合のリスクを低減する。
その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-26T06:36:32Z) - BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model [65.92173280096588]
我々は,Segment Anything Model (SAM)における画像分解能変動の課題に対処する。
SAMはゼロショットの汎用性で知られており、さまざまな画像サイズを持つデータセットに直面するとパフォーマンスが低下する。
我々は、各トークンが隣り合う情報を優先順位付けできるバイアスモードのアテンションマスクを提案する。
論文 参考訳(メタデータ) (2024-01-04T15:34:44Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。