論文の概要: PicoSAM3: Real-Time In-Sensor Region-of-Interest Segmentation
- arxiv url: http://arxiv.org/abs/2603.11917v1
- Date: Thu, 12 Mar 2026 13:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.108746
- Title: PicoSAM3: Real-Time In-Sensor Region-of-Interest Segmentation
- Title(参考訳): PicoSAM3: リアルタイムインセンサー領域-関心領域セグメンテーション
- Authors: Pietro Bonazzi, Nicola Farronato, Stefan Zihlmann, Haotong Qin, Michele Magno,
- Abstract要約: 我々はエッジとインセンサーの実行に最適化された軽量なプロンプト可能な視覚分割モデルPicoSAM3を紹介する。
PicoSAM3は1.3Mパラメータを持ち、密度の高いCNNアーキテクチャと、エンコーディングの領域、効率的なチャネル注意、SAM2とSAM3からの知識蒸留を組み合わせた。
COCOとLVISでは、PicoSAM3は65.45%と64.01% mIoUをそれぞれ達成し、既存のSAMベースとエッジ指向のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 22.190837932060607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time, on-device segmentation is critical for latency-sensitive and privacy-aware applications such as smart glasses and Internet-of-Things devices. We introduce PicoSAM3, a lightweight promptable visual segmentation model optimized for edge and in-sensor execution, including deployment on the Sony IMX500 vision sensor. PicoSAM3 has 1.3 M parameters and combines a dense CNN architecture with region of interest prompt encoding, Efficient Channel Attention, and knowledge distillation from SAM2 and SAM3. On COCO and LVIS, PicoSAM3 achieves 65.45% and 64.01% mIoU, respectively, outperforming existing SAM-based and edge-oriented baselines at similar or lower complexity. The INT8 quantized model preserves accuracy with negligible degradation while enabling real-time in-sensor inference at 11.82 ms latency on the IMX500, fully complying with its memory and operator constraints. Ablation studies show that distillation from large SAM models yields up to +14.5% mIoU improvement over supervised training and demonstrate that high-quality, spatially flexible promptable segmentation is feasible directly at the sensor level.
- Abstract(参考訳): リアルタイムのオンデバイスセグメンテーションは、スマートグラスやInternet-of-Thingsデバイスのようなレイテンシに敏感でプライバシに配慮したアプリケーションには不可欠である。
我々は、Sony IMX500ビジョンセンサーへの展開を含むエッジとインセンサーの実行に最適化された軽量なプロンプト可能なビジュアルセグメンテーションモデルであるPicoSAM3を紹介する。
PicoSAM3は1.3Mパラメータを持ち、密度の高いCNNアーキテクチャと、エンコーディングの領域、効率的なチャネル注意、SAM2とSAM3からの知識蒸留を組み合わせた。
COCOとLVISでは、PicoSAM3は65.45%と64.01% mIoUをそれぞれ達成し、既存のSAMベースベースラインとエッジ指向ベースラインを同様のまたは低い複雑さで上回っている。
INT8量子化モデルは、IMX500のリアルタイムインセンサー推論を11.82msの遅延で可能にし、メモリと演算子の制約を完全に満たしながら、無視可能な劣化で精度を保っている。
アブレーション研究では、大きなSAMモデルからの蒸留は教師付きトレーニングよりも+14.5% mIoUの改善をもたらすことが示され、高品質で空間的に柔軟なセグメンテーションがセンサーレベルで直接実現可能であることを示した。
関連論文リスト
- VesSAM: Efficient Multi-Prompting for Segmenting Complex Vessel [68.24765319399286]
本稿では,2次元血管セグメンテーションに適した,強力で効率的なフレームワークであるVesSAMを提案する。
VesSAMは、(1)局所的なテクスチャ機能を強化する畳み込みアダプタ、(2)解剖学的プロンプトを融合するマルチプロンプトエンコーダ、(3)ジャグアーティファクトを減らす軽量マスクデコーダを統合する。
VesSAMは、最先端のPEFTベースのSAMを10%以上のDiceと13%のIoUで一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-02T15:47:05Z) - PicoSAM2: Low-Latency Segmentation In-Sensor for Edge Vision Applications [10.20223636234956]
軽量 (1.3M パラメータ、336M MAC) のセグメンテーションモデルである PicoSAM2 は、ソニー IMX500 を含むエッジとインセンサーの実行に最適化された。
COCOとLVISでは、それぞれ51.9%と44.9%のmIoUを達成している。
量子化モデル(1.22MB)は、IMX500で達成された86MAC/サイクルで14.3msで動作する。
論文 参考訳(メタデータ) (2025-06-23T16:16:02Z) - HRSAM: Efficient Interactive Segmentation in High-Resolution Images [59.537068118473066]
Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限される。
本稿では,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。
この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
論文 参考訳(メタデータ) (2024-07-02T09:51:56Z) - SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration [6.515075311704396]
Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。
我々はSAMの亜種であるSAM-Lighteningを紹介し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴としている。
COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法よりも大幅に優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-03-14T09:07:34Z) - EdgeSAM: Prompt-In-the-Loop Distillation for SAM [87.52687622659904]
EdgeSAMはSegment Anything Model (SAM)の高速化版である。
我々のアプローチは、VTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留することである。
これは、iPhone 14で30FPS以上で動作可能なSAMの最初の派生機種である。
論文 参考訳(メタデータ) (2023-12-11T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。