論文の概要: Generalization vs. Specialization: Evaluating Segment Anything Model (SAM3) Zero-Shot Segmentation Against Fine-Tuned YOLO Detectors
- arxiv url: http://arxiv.org/abs/2512.11884v1
- Date: Tue, 09 Dec 2025 01:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:55.995214
- Title: Generalization vs. Specialization: Evaluating Segment Anything Model (SAM3) Zero-Shot Segmentation Against Fine-Tuned YOLO Detectors
- Title(参考訳): 一般化と特殊化:セグメンテーションモデル(SAM3)による微調整YOLO検出器に対するゼロショットセグメンテーションの評価
- Authors: Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee, Nikolaos D. Tselikas,
- Abstract要約: この研究は、ゼロショットモードで動作するSAM3(Segment Anything Model, SAMv3)とインスタンスセグメンテーションのために微調整された3種類のUltralytics YOLO11の比較を示す。
YOLOはIoU範囲で48-50点の急激な劣化を示し、SAM3はわずか4点の低下を示し、SAM3の12倍の安定性を示した。
- 参考スコア(独自算出の注目度): 3.5648679864643573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has advanced two fundamentally different paradigms for instance segmentation: specialized models optimized through task-specific fine-tuning and generalist foundation models capable of zero-shot segmentation. This work presents a comprehensive comparison between SAM3 (Segment Anything Model, also called SAMv3) operating in zero-shot mode and three variants of Ultralytics YOLO11 (nano, medium, and large) fine-tuned for instance segmentation. The evaluation is conducted on the MinneApple dataset, a dense benchmark comprising 670 orchard images with 28,179 annotated apple instances, enabling rigorous validation of model behavior under high object density and occlusion. Our analysis shows IoU choices can inflate performance gaps by up to 30%. At the appropriate IoU = 0.15 threshold, YOLO models achieve 68.9%, 72.2%, and 71.9% F1, while SAM3 reaches 59.8% in pure zero-shot mode. However, YOLO exhibits steep degradation 48-50 points across IoU ranges whereas SAM3 drops only 4 points, revealing 12 times superior boundary stability of SAM3. This highlights the strength of SAMv3 in mask precision versus specialization in detection completeness of YOLO11. We provide open-source code, evaluation pipelines, and methodological recommendations, contributing to a deeper understanding of when specialized fine-tuned models or generalist foundation models are preferable for dense instance segmentation tasks. This project repository is available on GitHub as https://github.com/Applied-AI-Research-Lab/Segment-Anything-Model-SAM3-Zero-Shot-Segmentation-Agains t-Fine-Tuned-YOLO-Detectors
- Abstract(参考訳): ディープラーニングは、タスク固有の微調整によって最適化された特殊モデルと、ゼロショットセグメンテーションが可能な汎用的な基礎モデルという、2つの基本的なパラダイムを進化させた。
この研究は、ゼロショットモードで動作するSAM3(Segment Anything Model, SAMv3)と、インスタンスセグメンテーションのために微調整されたYOLO11(ナノ、中、大)の3つの変種を総合的に比較する。
評価は,8,179個のアノテートリンゴインスタンスを含む670個のオーチャード画像からなる濃密なベンチマークであるMinne Appleデータセット上で行われ,高オブジェクト密度および閉塞下でのモデル挙動の厳密な検証を可能にする。
我々の分析によると、IoUの選択はパフォーマンスのギャップを最大30%増やすことができる。
適切なIoU = 0.15しきい値では、YOLOモデルは68.9%、72.2%、71.9%のF1を獲得し、SAM3は純粋なゼロショットモードで59.8%に達する。
しかし, YOLOはIoU範囲で48-50点の急激な劣化を示す一方, SAM3は4点しか低下せず, SAM3の12倍の安定性を示した。
これは SAMv3 のマスク精度と YOLO11 の検出完全性における特殊化の強さを強調している。
我々は、厳密なインスタンスセグメンテーションタスクにおいて、特定の微調整モデルやジェネラリスト基礎モデルが好まれる時期について、より深く理解するために、オープンソースのコード、評価パイプライン、方法論的レコメンデーションを提供する。
このプロジェクトリポジトリはGitHubでhttps://github.com/Applied-AI-Research-Lab/Segment-Anything-Model-SAM3-Zero-Shot-Segmentation-Agains t-Fine-Tuned-YOLO-Detectorsとして公開されている。
関連論文リスト
- AD-SAM: Fine-Tuning the Segment Anything Vision Foundation Model for Autonomous Driving Perception [3.298091299319354]
自律運転セグメンテーションモデル(Autonomous Driving Segment Anything Model、AD-SAM)は、自律運転における意味的セグメンテーションのための微調整された視覚基盤モデルである。
AD-SAMは、道路シーンの空間的および幾何学的複雑さに合わせて、二重エンコーダと変形可能なデコーダでSegment Anything Model (SAM)を拡張している。
実験の結果,AD-SAMはSAM,一般SAM(G-SAM),深層学習ベースライン(DeepLabV3)を上回るセグメンテーション精度を示した。
論文 参考訳(メタデータ) (2025-10-30T23:30:33Z) - Looking Locally: Object-Centric Vision Transformers as Foundation Models for Efficient Segmentation [3.5297361401370053]
現在の最先端セグメンテーションモデルは、特定のオブジェクトにフォーカスする前に全画像をエンコードする。
本稿では,生物にインスパイアされたトップダウンアテンションを通してオブジェクトセグメンテーションを実現する,パラメータ効率のよい視覚モデルFLIPを紹介する。
FLIPセグメントは、既存のモデルに深刻な欠陥がある場合、非常に小さなオブジェクトでも正確に表現できることが示される。
論文 参考訳(メタデータ) (2025-02-04T23:07:34Z) - Zero-Shot Automatic Annotation and Instance Segmentation using LLM-Generated Datasets: Eliminating Field Imaging and Manual Annotation for Deep Learning Model Development [0.36868085124383626]
本研究では, 果樹園におけるリンゴの深層学習に基づくインスタンスセグメンテーション手法を提案する。
そこで我々は, YOLO11ベースモデルと統合したSegment Anything Model (SAM) を用いて, オーチャード画像を合成し, 自動的に注釈付けを行った。
その結果、自動生成したアノテーションはDice Coefficient 0.99513 と IoU 0.9303 を達成し、マスクアノテーションの精度と重複性を検証した。
論文 参考訳(メタデータ) (2024-11-18T05:11:29Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Zero-Shot Refinement of Buildings' Segmentation Models using SAM [6.110856077714895]
本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。
いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。
SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。
この新しいアプローチはSAMを認識能力で強化する。
論文 参考訳(メタデータ) (2023-10-03T07:19:59Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection [63.36722419180875]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの作業は、他のYOLOモデルのプラグイン・アンド・プレイモジュールとしても機能します。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。