論文の概要: PicoSAM2: Low-Latency Segmentation In-Sensor for Edge Vision Applications
- arxiv url: http://arxiv.org/abs/2506.18807v1
- Date: Mon, 23 Jun 2025 16:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.082423
- Title: PicoSAM2: Low-Latency Segmentation In-Sensor for Edge Vision Applications
- Title(参考訳): PicoSAM2: エッジビジョンアプリケーションのための低レイテンシセグメンテーションインセンサー
- Authors: Pietro Bonazzi, Nicola Farronato, Stefan Zihlmann, Haotong Qi, Michele Magno,
- Abstract要約: 軽量 (1.3M パラメータ、336M MAC) のセグメンテーションモデルである PicoSAM2 は、ソニー IMX500 を含むエッジとインセンサーの実行に最適化された。
COCOとLVISでは、それぞれ51.9%と44.9%のmIoUを達成している。
量子化モデル(1.22MB)は、IMX500で達成された86MAC/サイクルで14.3msで動作する。
- 参考スコア(独自算出の注目度): 0.9204149287692597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time, on-device segmentation is critical for latency-sensitive and privacy-aware applications like smart glasses and IoT devices. We introduce PicoSAM2, a lightweight (1.3M parameters, 336M MACs) promptable segmentation model optimized for edge and in-sensor execution, including the Sony IMX500. It builds on a depthwise separable U-Net, with knowledge distillation and fixed-point prompt encoding to learn from the Segment Anything Model 2 (SAM2). On COCO and LVIS, it achieves 51.9% and 44.9% mIoU, respectively. The quantized model (1.22MB) runs at 14.3 ms on the IMX500-achieving 86 MACs/cycle, making it the only model meeting both memory and compute constraints for in-sensor deployment. Distillation boosts LVIS performance by +3.5% mIoU and +5.1% mAP. These results demonstrate that efficient, promptable segmentation is feasible directly on-camera, enabling privacy-preserving vision without cloud or host processing.
- Abstract(参考訳): リアルタイムのオンデバイスセグメンテーションは、スマートグラスやIoTデバイスのようなレイテンシに敏感でプライバシに配慮したアプリケーションに不可欠である。
我々は、Sony IMX500を含むエッジおよびインセンサーの実行に最適化された軽量な(1.3Mパラメータ、336MMAC)アクセラブルセグメンテーションモデルであるPicoSAM2を紹介する。
知識蒸留と固定点プロンプトエンコーディングにより、Segment Anything Model 2 (SAM2) から学ぶことができる。
COCOとLVISでは、それぞれ51.9%と44.9%のmIoUを達成している。
量子化モデル(1.22MB)は、IMX500で達成された86のMAC/サイクルで14.3msで動作する。
蒸留はLVISの性能を+3.5% mIoUと+5.1% mAPで向上させる。
これらの結果は、効率的で迅速なセグメンテーションがカメラ上で直接実現可能であることを示し、クラウドやホスト処理なしでプライバシ保護のビジョンを可能にする。
関連論文リスト
- Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。
これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文 参考訳(メタデータ) (2025-07-09T07:27:00Z) - EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。
私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。
計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文 参考訳(メタデータ) (2025-01-13T12:11:07Z) - EMOv2: Pushing 5M Vision Model Frontier [92.21687467702972]
様々な下流タスクにおいて,5M級軽量モデルの新たなフロンティアを構築した。
我々の研究は、Transformerにおける効率的なIRBと実用的なコンポーネントの軽量なインフラを再考する。
4G/5G帯でモデルをダウンロードする場合のモバイルユーザの遅延を考慮し,5M程度の軽量モデルの性能上限について検討する。
論文 参考訳(メタデータ) (2024-12-09T17:12:22Z) - SAVE: Segment Audio-Visual Easy way using Segment Anything Model [0.0]
そこで本研究では,AVSタスクに対して,事前学習セグメントモデル(SAM)を効率的に適用するための軽量なアプローチSAVEを提案する。
提案手法は,符号化段階における効果的な音声と視覚の融合と相互作用を実現する。
論文 参考訳(メタデータ) (2024-07-02T07:22:28Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - Q-Segment: Segmenting Images In-Sensor for Vessel-Based Medical
Diagnosis [13.018482089796159]
我々は、量子化されたリアルタイムセグメンテーションアルゴリズム「Q-Segment」を提案し、Sony IMX500を用いて、低消費電力エッジビジョンプラットフォーム上で包括的な評価を行う。
Q-セグメントは、センサー内での超低推論時間(0.23ms)と72mWの消費電力を実現している。
この研究は、エッジベースのイメージセグメンテーションに関する貴重な洞察をもたらし、低消費電力環境に適した効率的なアルゴリズムの基礎を築いた。
論文 参考訳(メタデータ) (2023-12-15T15:01:41Z) - EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM [71.868623296582]
EdgeSAMはSegment Anything Model (SAM)の高速化版である。
我々のアプローチは、VTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留することである。
これは、iPhone 14で30FPS以上で動作可能なSAMの最初の派生機種である。
論文 参考訳(メタデータ) (2023-12-11T18:59:52Z) - TinyTracker: Ultra-Fast and Ultra-Low-Power Edge Vision In-Sensor for
Gaze Estimation [11.917014372788584]
この研究は、ソニーによるIMX500と呼ばれる最初の「センサーのAI」ビジョンプラットフォームを活用し、超高速で超低消費電力のエッジビジョンアプリケーションを実現する。
本研究では,2次元視線推定のための高効率完全量子化モデルTinyTrackerを提案する。
論文 参考訳(メタデータ) (2023-07-15T14:34:25Z) - You Only Segment Once: Towards Real-Time Panoptic Segmentation [68.91492389185744]
YOSOはリアルタイムのパン光学セグメンテーションフレームワークである。
YOSOは、パン光学カーネルと画像特徴マップの間の動的畳み込みを通じてマスクを予測する。
YOSOは、COCOで46.4 PQ、45.6 FPS、都市景観で52.5 PQ、22.6 FPS、ADE20Kで38.0 PQ、35.4 FPSを達成している。
論文 参考訳(メタデータ) (2023-03-26T07:55:35Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices [13.62426382827205]
実時間物体検出器のPP-PicoDetファミリは,モバイルデバイスの物体検出において優れた性能を発揮する。
モデルは、他の一般的なモデルと比較して、精度とレイテンシのトレードオフを改善する。
論文 参考訳(メタデータ) (2021-11-01T12:53:17Z) - YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs [14.85882314822983]
ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマップするには、通常、そのようなモデルを著しく圧縮する必要がある。
本稿では,マルチスケール機能インタラクションのためのエッジGPUフレンドリなモジュールを提案する。
また,様々なタスク間の翻訳情報の流れの変化にインスパイアされた,新たな学習バックボーンの導入を提案する。
論文 参考訳(メタデータ) (2021-10-26T14:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。