論文の概要: Track Anything Annotate: Video annotation and dataset generation of computer vision models
- arxiv url: http://arxiv.org/abs/2505.17884v1
- Date: Fri, 23 May 2025 13:32:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.111336
- Title: Track Anything Annotate: Video annotation and dataset generation of computer vision models
- Title(参考訳): Track Anything Annotate:コンピュータビジョンモデルのビデオアノテーションとデータセット生成
- Authors: Nikita Ivanov, Mark Klimov, Dmitry Glukhikh, Tatiana Chernysheva, Igor Glukhikh,
- Abstract要約: 本稿では,ビデオ追跡とセグメンテーションに基づくトレーニングデータセットの注釈付けと生成を行うツールを試作するプロセスを検討する。
開発されたプロトタイプは、手動のアノテーションと比較してデータセット生成を著しく加速する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern machine learning methods require significant amounts of labelled data, making the preparation process time-consuming and resource-intensive. In this paper, we propose to consider the process of prototyping a tool for annotating and generating training datasets based on video tracking and segmentation. We examine different approaches to solving this problem, from technology selection through to final implementation. The developed prototype significantly accelerates dataset generation compared to manual annotation. All resources are available at https://github.com/lnikioffic/track-anything-annotate
- Abstract(参考訳): 現代の機械学習手法は、大量のラベル付きデータを必要とし、準備プロセスに時間とリソースを消費する。
本稿では,ビデオ追跡とセグメンテーションに基づくトレーニングデータセットの注釈付けと生成を行うツールを試作する方法について検討する。
技術選択から最終実装まで,この問題に対するさまざまなアプローチについて検討する。
開発されたプロトタイプは、手動のアノテーションと比較してデータセット生成を著しく加速する。
すべてのリソースはhttps://github.com/lnikioffic/track-anything-annotateで利用可能である。
関連論文リスト
- PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.15907330726067]
我々は、画像とビデオの理解において透過的な研究を行うために、完全にオープンで再現可能なフレームワークでパーセプションモデル言語(PLM)を構築した。
モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
論文 参考訳(メタデータ) (2025-04-17T17:59:56Z) - What Are You Doing? A Closer Look at Controllable Human Video Generation [73.89117620413724]
What Are You Doing?」は、人間の制御可能な画像とビデオの生成を評価するための新しいベンチマークである。
このビデオは、1,544本のキャプション付きビデオで構成されており、56の細かなカテゴリーで細かな収集と注釈付けがなされている。
制御可能な画像・映像生成における7つの最先端モデルの詳細な解析を行う。
論文 参考訳(メタデータ) (2025-03-06T17:59:29Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - ProtoExplorer: Interpretable Forensic Analysis of Deepfake Videos using
Prototype Exploration and Refinement [11.182863992851622]
ProtoExplorerは、プロトタイプベースのディープフェイク検出モデルの探索と改善のためのVisual Analyticsシステムである。
ビデオデータを扱う際にプロトタイプベースの予測を視覚化し、時間的にフィルタリングするツールを提供する。
システムは法医学の専門家によって設計され、オープンエンドの思考評価とインタビューに基づいて、数多くのラウンドで評価された。
論文 参考訳(メタデータ) (2023-09-20T09:03:56Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。