論文の概要: Prompt-Based Segmentation at Multiple Resolutions and Lighting Conditions using Segment Anything Model 2
- arxiv url: http://arxiv.org/abs/2408.06970v4
- Date: Fri, 03 Jan 2025 09:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 12:12:21.277406
- Title: Prompt-Based Segmentation at Multiple Resolutions and Lighting Conditions using Segment Anything Model 2
- Title(参考訳): セグメンテーションモデル2を用いた複数解像度・照明条件でのプロンプトベースセグメンテーション
- Authors: Osher Rafaeli, Tal Svoray, Roni Blushtein-Livnon, Ariel Nahlieli,
- Abstract要約: 本稿では、ゼロショット、プロンプトベースのセグメンテーションモデル(SAM)とその更新版であるSAM2とSAM2.1と、RGB空中リモートセンシング画像におけるソーラーパネルのセグメンテーションのための非プロンプタブルニューラルネットワーク(CNN)について検討する。
SAMモデルは、ユーザ定義ボックスによって誘導される場合、すべてのシナリオにおいてCNNよりも優れており、特に低解像度データにおいて適切なパフォーマンスを達成するためには、ユーザボックスプロンプトが不可欠であることが判明した。
Eff-UNet は YOLOv9 によって誘導される SAM よりも高解像度で、準最適照明条件下では、Eff-UNet は SAM より優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper provides insights on the effectiveness of the zero shot, prompt-based Segment Anything Model (SAM) and its updated versions, SAM 2 and SAM 2.1, along with the non-promptable conventional neural network (CNN), for segmenting solar panels in RGB aerial remote sensing imagery. The study evaluates these models across diverse lighting conditions, spatial resolutions, and prompt strategies. SAM 2 showed slight improvements over SAM, while SAM 2.1 demonstrated notable improvements, particularly in sub-optimal lighting and low resolution conditions. SAM models, when prompted by user-defined boxes, outperformed CNN in all scenarios; in particular, user-box prompts were found crucial for achieving reasonable performance in low resolution data. Additionally, under high resolution, YOLOv9 automatic prompting outperformed user-points prompting by providing reliable prompts to SAM. Under low resolution, SAM 2.1 prompted by user points showed similar performance to SAM 2.1 prompted by YOLOv9, highlighting its zero shot improvements with a single click. In high resolution with optimal lighting imagery, Eff-UNet outperformed SAMs prompted by YOLOv9, while under sub-optimal lighting conditions, Eff-UNet, and SAM 2.1 prompted by YOLOv9, had similar performance. However, SAM is more resource-intensive, and despite improved inference time of SAM 2.1, Eff-UNet is more suitable for automatic segmentation in high resolution data. This research details strengths and limitations of each model and outlines the robustness of user-prompted image segmentation models.
- Abstract(参考訳): 本稿では、ゼロショット、プロンプトベースのセグメンテーションモデル(SAM)とその更新版であるSAM2とSAM2.1と、RGBリモートセンシング画像におけるソーラーパネルのセグメンテーションに対する非プロンプタブルニューラルネットワーク(CNN)の有効性について考察する。
この研究は、様々な照明条件、空間分解能、迅速な戦略でこれらのモデルを評価する。
SAM 2はSAMよりもわずかに改善され、SAM 2.1は特に準最適照明と低解像度条件において顕著に改善された。
SAMモデルは、ユーザ定義ボックスによって誘導される場合、すべてのシナリオにおいてCNNよりも優れており、特に低解像度データにおいて適切なパフォーマンスを達成するためには、ユーザボックスプロンプトが不可欠であることが判明した。
さらに、高解像度では、YOLOv9はSAMに信頼性の高いプロンプトを提供することにより、パフォーマンスの高いユーザポイントを自動でプロンプトする。
低解像度では、ユーザポイントによって引き起こされたSAM 2.1は、YOLOv9によって引き起こされたSAM 2.1と同じような性能を示し、1クリックでゼロショットの改善が強調された。
Eff-UNet は YOLOv9 が引き起こしたSAMよりも高解像度で、準最適照明条件下では Eff-UNet と SAM 2.1 は YOLOv9 が引き起こした。
しかし、SAMはリソース集約性が高く、SAM 2.1の推論時間が改善されたにもかかわらず、Eff-UNetは高解像度データの自動セグメンテーションに適している。
本研究は,各モデルの長所と短所を詳述し,ユーザが提案する画像分割モデルの堅牢性について概説する。
関連論文リスト
- RFMedSAM 2: Automatic Prompt Refinement for Enhanced Volumetric Medical Image Segmentation with SAM 2 [15.50695315680438]
Segment Anything Model 2 (SAM2)は、SAMを画像ドメインとビデオドメインの両方に拡張するプロンプト駆動基盤モデルである。
しかしSAMと同様、SAM 2はバイナリマスクの出力、セマンティックラベルの推論ができないこと、ターゲットのオブジェクト領域の正確なプロンプトへの依存によって制限されている。
我々は、カスタムの微調整アダプタを用いてSAM 2の上限値について検討し、BTCVデータセット上で92.30%のDice similarity Coefficient(DSC)を達成する。
論文 参考訳(メタデータ) (2025-02-04T22:03:23Z) - SAMPa: Sharpness-aware Minimization Parallelized [51.668052890249726]
シャープネス認識(SAM)はニューラルネットワークの一般化を改善することが示されている。
SAMの更新には2つの勾配を瞬時に計算する必要がある。
我々は,SAMPaと呼ばれるSAMの簡単な修正を提案し,この2つの勾配計算を完全に並列化することができる。
論文 参考訳(メタデータ) (2024-10-14T16:21:23Z) - Bilateral Sharpness-Aware Minimization for Flatter Minima [61.17349662062522]
Sharpness-Aware Minimization (SAM) は Max-Sharpness (MaxS) を減らして一般化を促進する
本稿では,現在の重量を囲む周辺地域のトレーニング損失と最小損失の差を利用して,Min-Sharpness (MinS) と表現する。
MaxSとMinSをマージすることで、最適化中により平坦な方向を示すより良いFIを作成しました。特に、このFIをSAMと組み合わせて提案されたバイラテラルSAM(BSAM)に組み込むことにより、SAMよりもより平坦な最小値を求めることができます。
論文 参考訳(メタデータ) (2024-09-20T03:01:13Z) - Evaluating SAM2's Role in Camouflaged Object Detection: From SAM to SAM2 [10.751277821864916]
報告によると、SAM2のオートモードでのプロンプトなしで、画像内の異なるオブジェクトを知覚する能力は低下している。
具体的には, この性能低下を評価するために, カモフラージュされた物体検出の課題を用いる。
論文 参考訳(メタデータ) (2024-07-31T13:32:10Z) - PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation [19.65118388712439]
本稿では,新しいプロンプト駆動型アダプタであるPrompt Adapter Segment Anything Model(PA-SAM)を紹介する。
PA-SAMはプロンプトアダプタを専用にトレーニングすることで、画像から詳細な情報を抽出し、スパースレベルとディーププロンプトレベルの両方でマスクデコーダ機能を最適化する。
実験の結果,PA-SAMは他のSAM法よりも高品質,ゼロショット,オープンセットのセグメンテーションで優れていた。
論文 参考訳(メタデータ) (2024-01-23T19:20:22Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z) - An Adaptive Policy to Employ Sharpness-Aware Minimization [5.5347134457499845]
シャープネス対応最小化 (SAM) は, min-max 最適化により平坦な最小値を求める。
最近の最先端技術はSAM更新の割合を減らしている。
AE-SAMとAE-LookSAMという2つの効率的なアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2023-04-28T06:23:32Z) - Improving Sharpness-Aware Minimization with Fisher Mask for Better
Generalization on Language Models [93.85178920914721]
限られた訓練コーパス上の微調整された大きな事前訓練された言語モデルは、通常、計算の貧弱さに悩まされる。
本稿では,新しい最適化手法であるFSAMを提案し,SAMの効率と性能を改善するためにフィッシャーマスクを導入した。
FSAMは4種類の事前訓練モデルにおいて,バニラSAMの平均スコア0.671.98を上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:53:58Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。