論文の概要: EfficientSAM3: Progressive Hierarchical Distillation for Video Concept Segmentation from SAM1, 2, and 3
- arxiv url: http://arxiv.org/abs/2511.15833v1
- Date: Wed, 19 Nov 2025 19:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.353061
- Title: EfficientSAM3: Progressive Hierarchical Distillation for Video Concept Segmentation from SAM1, 2, and 3
- Title(参考訳): EfficientSAM3: SAM1, 2, 3のビデオコンセプトセグメンテーションのためのプログレッシブ階層的蒸留
- Authors: Chengxi Zeng, Yuxuan Jiang, Aaron Zhang,
- Abstract要約: プログレッシブ階層蒸留(PHD)に基づく効率的なモデル群であるEfficientSAM3を提案する。
PHDは、SA-1B上でのプロンプト・イン・ザ・ループ・トレーニングを通じて、画像の特徴を整列する; (2) テンポラルメモリ蒸留は、SA-V上で訓練されたコンパクトなPerceiverベースのモジュールで高密度メモリを置き換える。
人気の高いVOSデータセットをベンチマークし、さまざまなリライトされた作業と比較し、強力なパフォーマンスと効率のトレードオフを実現しています。
- 参考スコア(独自算出の注目度): 1.0243211938789691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Segment Anything Model 3 (SAM3) advances visual understanding with Promptable Concept Segmentation (PCS) across images and videos, but its unified architecture (shared vision backbone, DETR-style detector, dense-memory tracker) remains prohibitive for on-device use. We present EfficientSAM3, a family of efficient models built on Progressive Hierarchical Distillation (PHD) that transfers capability from SAM3 to lightweight students in three stages: (1) Encoder Distillation aligns image features via prompt-in-the-loop training on SA-1B; (2) Temporal Memory Distillation replaces dense memory with a compact Perceiver-based module trained on SA-V to compress and retrieve spatiotemporal features efficiently; and (3) End-to-End Fine-Tuning refines the full pipeline on the official SAM3 PCS data to preserve concept-level performance. PHD yields a spectrum of student variants using RepViT, TinyViT, and EfficientViT backbones, enabling on-device concept segmentation and tracking while maintaining high fidelity to teacher behavior. We benchmark on popular VOS datasets, and compare with varies of releated work, achieing strong performance-efficiency trade-offs.
- Abstract(参考訳): Segment Anything Model 3 (SAM3)は、画像やビデオ間でのPromptable Concept Segmentation (PCS)による視覚的理解を前進させるが、その統一アーキテクチャ(Shared Vision Backbone、DETRスタイルの検出器、高密度メモリトラッカー)は、デバイス上での使用を禁止している。
1)エンコーダ蒸留は,SA-1B上でのプロンプト・イン・ザ・ループ・トレーニングによる画像特徴の整合,(2)時間記憶蒸留は,SA-1B上での高密度メモリを,SA-Vで訓練されたコンパクトなPerceiverベースのモジュールに置き換えて時空間特性の圧縮と取得を行う。
PHDは、RepViT、TinyViT、EfficientViTのバックボーンを使用して、教師の行動に対する忠実さを維持しながら、デバイス上のコンセプトセグメンテーションとトラッキングを可能にする。
人気の高いVOSデータセットをベンチマークし、さまざまなリライトされた作業と比較し、強力なパフォーマンスと効率のトレードオフを実現しています。
関連論文リスト
- Enriched Feature Representation and Motion Prediction Module for MOSEv2 Track of 7th LSVOS Challenge: 3rd Place Solution [8.540105031750434]
そこで我々は,Cutie と SAM2 の強みを統合するフレームワークを提案する。
第7回LSVOSチャレンジのMOSEv2トラックで3位を獲得しました。
このことは、ロバストなビデオオブジェクトセグメンテーションにおけるリッチな特徴表現と動き予測の有効性を示す。
論文 参考訳(メタデータ) (2025-09-19T09:11:01Z) - SAM2RL: Towards Reinforcement Learning Memory Control in Segment Anything Model 2 [2.659882635924329]
Segment Anything Model 2 (SAM2) は、オブジェクトセグメンテーションタスクにおいて強力なパフォーマンスを示している。
最近の方法では、イントラクタやオブジェクトの動きをよりよく扱うために手作りの更新ルールでSAM 2を拡張している。
SAM 2におけるメモリ更新を最適化するための強化学習を用いた基本的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-11T12:53:19Z) - METok: Multi-Stage Event-based Token Compression for Efficient Long Video Understanding [55.38256656122857]
トレーニング不要なマルチステージイベントベースのToken圧縮フレームワークであるMETokを提案する。
我々はMETokが情報的視覚トークンを動的に選択することで効率と精度の最適なトレードオフを実現することを示す。
例えば、LongVA-7BをMETokに装備すると、80.6%のFLOPが削減され、93.5%のKVキャッシュメモリが節約される。
論文 参考訳(メタデータ) (2025-06-03T13:19:41Z) - SAM-I2V: Upgrading SAM to Support Promptable Video Segmentation with Less than 0.2% Training Cost [23.51101492249404]
本稿では,PVSモデルを構築するための画像と映像の効果的なアップグレード手法であるSAM-I2Vを紹介する。
我々のアプローチでは、事前訓練されたSAMをPVSをサポートするよう戦略的にアップグレードし、トレーニングの複雑さとリソース要求を大幅に削減する。
論文 参考訳(メタデータ) (2025-06-02T04:30:14Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。
私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。
計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文 参考訳(メタデータ) (2025-01-13T12:11:07Z) - FastSAM3D: An Efficient Segment Anything Model for 3D Volumetric Medical Images [7.2993352400518035]
NVIDIA A100 GPU上の128*128*128の3Dボリューム画像に対して,SAM推論を8ミリ秒に高速化するFastSAM3Dを提案する。
FastSAM3Dは2D SAMと8.75倍の527.38倍で、同じボリュームの3D SAMは性能が著しく低下しない。
論文 参考訳(メタデータ) (2024-03-14T19:29:44Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。