論文の概要: SAM2Auto: Auto Annotation Using FLASH
- arxiv url: http://arxiv.org/abs/2506.07850v1
- Date: Mon, 09 Jun 2025 15:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.01698
- Title: SAM2Auto: Auto Annotation Using FLASH
- Title(参考訳): SAM2Auto:FLASHを使った自動アノテーション
- Authors: Arash Rocky, Q. M. Jonathan Wu,
- Abstract要約: VLM(Vision-Language Models)は、注釈付きデータセットの不足により、大規模言語モデルに遅れている。
SAM2Autoは、人間の介入やデータセット固有のトレーニングを必要としないビデオデータセットのための、最初の完全に自動化されたアノテーションパイプラインである。
本システムでは, 検出誤差を最小限に抑えつつ, ビデオシーケンス全体にわたって一貫した物体追跡を確実にするため, 統計的手法を用いている。
- 参考スコア(独自算出の注目度): 13.638155035372835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) lag behind Large Language Models due to the scarcity of annotated datasets, as creating paired visual-textual annotations is labor-intensive and expensive. To address this bottleneck, we introduce SAM2Auto, the first fully automated annotation pipeline for video datasets requiring no human intervention or dataset-specific training. Our approach consists of two key components: SMART-OD, a robust object detection system that combines automatic mask generation with open-world object detection capabilities, and FLASH (Frame-Level Annotation and Segmentation Handler), a multi-object real-time video instance segmentation (VIS) that maintains consistent object identification across video frames even with intermittent detection gaps. Unlike existing open-world detection methods that require frame-specific hyperparameter tuning and suffer from numerous false positives, our system employs statistical approaches to minimize detection errors while ensuring consistent object tracking throughout entire video sequences. Extensive experimental validation demonstrates that SAM2Auto achieves comparable accuracy to manual annotation while dramatically reducing annotation time and eliminating labor costs. The system successfully handles diverse datasets without requiring retraining or extensive parameter adjustments, making it a practical solution for large-scale dataset creation. Our work establishes a new baseline for automated video annotation and provides a pathway for accelerating VLM development by addressing the fundamental dataset bottleneck that has constrained progress in vision-language understanding.
- Abstract(参考訳): 視覚言語モデル(VLM)は、注釈付きデータセットが不足しているため、大規模言語モデルよりも遅れている。
このボトルネックに対処するために、SAM2Autoを紹介します。これは、人間の介入やデータセット固有のトレーニングを必要としない、ビデオデータセットのための、最初の完全に自動化されたアノテーションパイプラインです。
提案手法は,自動マスク生成とオープンワールドオブジェクト検出機能を組み合わせた堅牢なオブジェクト検出システムSMART-ODと,映像フレーム間の一貫したオブジェクト識別を維持する多目的リアルタイムビデオインスタンスセグメンテーション(VIS)であるFLASH(Frame-Level Annotation and Segmentation Handler)から構成される。
フレーム固有のハイパーパラメータチューニングを必要とする既存のオープンワールド検出手法と異なり,本システムでは検出誤差を最小限に抑えつつ,一貫したオブジェクト追跡の確保を図っている。
大規模な実験的検証では、SAM2Autoは手作業によるアノテーションと同等の精度を達成し、アノテーションの時間を劇的に短縮し、作業コストを削減している。
このシステムは、トレーニングや広範なパラメータ調整を必要とせずに、多様なデータセットをうまく処理し、大規模なデータセット作成のための実用的なソリューションとなる。
本研究は,ビデオの自動アノテーションのための新たなベースラインを確立し,視覚言語理解の進歩を制限した基本的なデータセットボトルネックに対処することで,VLM開発を加速するための経路を提供する。
関連論文リスト
- VideoMolmo: Spatio-Temporal Grounding Meets Pointing [73.25506085339252]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking [6.91631684487121]
コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。
本稿では,オブジェクトの動きと重なり合う認識に基づいて,重要な特徴を選択的に記憶するメモリベースの新しいアプローチを提案する。
提案手法はDanceTrackテストセットのMOTRv2よりも有意に改善し,AsAスコアが2.0%,IFF1スコアが2.1%向上した。
論文 参考訳(メタデータ) (2024-07-05T07:55:19Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Automated Multimodal Data Annotation via Calibration With Indoor
Positioning System [0.0]
本手法では,室内位置決めシステム(IPS)を用いて,点雲と画像の両方の正確な検出ラベルを生成する。
実験では、システムは人間のベースラインの261.8倍の速さで関心のあるオブジェクトに注釈を付ける。
論文 参考訳(メタデータ) (2023-12-06T16:54:24Z) - Gram-SLD: Automatic Self-labeling and Detection for Instance Objects [6.512856940779818]
我々はGram-SLD(Gram Self-Labeling and Detection)と呼ばれる協調学習に基づく新しいフレームワークを提案する。
Gram-SLDは、手動でラベル付けされたキーデータで大量のデータを自動アノテートし、競争性能を達成する。
論文 参考訳(メタデータ) (2021-12-07T11:34:55Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。