論文の概要: Efficient video annotation with visual interpolation and frame selection
guidance
- arxiv url: http://arxiv.org/abs/2012.12554v1
- Date: Wed, 23 Dec 2020 09:31:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 02:30:49.874718
- Title: Efficient video annotation with visual interpolation and frame selection
guidance
- Title(参考訳): 視覚補間とフレーム選択誘導を用いた効率的なビデオアノテーション
- Authors: A. Kuznetsova, A. Talati, Y. Luo, K. Simmons and V. Ferrari
- Abstract要約: バウンディングボックスを備えたジェネリックビデオアノテーションの統一フレームワークを紹介します。
提案手法は,一般的な線形手法に比べて実測アノテーション時間を50%短縮することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a unified framework for generic video annotation with bounding
boxes. Video annotation is a longstanding problem, as it is a tedious and
time-consuming process. We tackle two important challenges of video annotation:
(1) automatic temporal interpolation and extrapolation of bounding boxes
provided by a human annotator on a subset of all frames, and (2) automatic
selection of frames to annotate manually. Our contribution is two-fold: first,
we propose a model that has both interpolating and extrapolating capabilities;
second, we propose a guiding mechanism that sequentially generates suggestions
for what frame to annotate next, based on the annotations made previously. We
extensively evaluate our approach on several challenging datasets in simulation
and demonstrate a reduction in terms of the number of manual bounding boxes
drawn by 60% over linear interpolation and by 35% over an off-the-shelf
tracker. Moreover, we also show 10% annotation time improvement over a
state-of-the-art method for video annotation with bounding boxes [25]. Finally,
we run human annotation experiments and provide extensive analysis of the
results, showing that our approach reduces actual measured annotation time by
50% compared to commonly used linear interpolation.
- Abstract(参考訳): 我々は、バウンディングボックス付きジェネリックビデオアノテーションのための統合フレームワークを導入する。
ビデオアノテーションは退屈で時間を要するプロセスであるため、長年にわたる問題です。
ビデオアノテーションの2つの重要な課題は,(1)全フレームのサブセットに人間の注釈器によって提供される境界ボックスの自動補間と補間,(2)手動で注釈を行うためのフレームの自動選択である。
第一に,補間能力と補間能力の両方を有するモデルを提案し,第二に,前述したアノテーションに基づいて,次にアノテートするフレームの提案を逐次生成する誘導機構を提案する。
シミュレーションにおいて,いくつかの難解なデータセットに対するアプローチを広範囲に評価し,線形補間よりも60%,市販トラッカーより35%,手動境界ボックス数を削減できることを実証した。
さらに,バウンディングボックス[25]を用いたビデオアノテーションの最先端手法に対して,10%のアノテーション時間の改善を示す。
最後に,人間のアノテーション実験を行い,その結果の広範囲な分析を行い,従来の線形補間に比べて実際のアノテーション処理時間を50%削減できることを示した。
関連論文リスト
- ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions [59.71751978599567]
本稿では,時間的ビデオアノテーションプロセスの高速化のために,事前抽出した特徴量と次元減少量を用いた新しいアノテーションパイプラインを提案する。
従来のリニア手法と比較して,アノテーションの取り組みが大幅に改善され,12時間以上のビデオのアノテートに要するクリック数が10倍以上に短縮された。
論文 参考訳(メタデータ) (2024-09-16T18:15:38Z) - On-the-Fly Point Annotation for Fast Medical Video Labeling [1.890063512530524]
医学研究において、ディープラーニングモデルは高品質な注釈付きデータに依存している。
2つのコーナーを調整する必要があるため、プロセスは本質的にフレーム単位で行われる。
そこで本研究では,ライブビデオアノテーションのオンザフライ方式を提案し,アノテーションの効率を向上させる。
論文 参考訳(メタデータ) (2024-04-22T16:59:43Z) - SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations [12.139451002212063]
SSVODはビデオのモーションダイナミクスを利用して、スパースアノテーション付き大規模未ラベルフレームを利用する。
提案手法は,ImageNet-VID, Epic-KITCHENS, YouTube-VISの既存手法に比べて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-09-04T06:41:33Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Distill and Collect for Semi-Supervised Temporal Action Segmentation [0.0]
本稿では,注釈付きおよび注釈なしのビデオシーケンスからの知識を同時に活用する時間的行動分割タスクを提案する。
提案手法では, 繰り返し精製し, 最終的にフレーム予測を組み合わすマルチストリーム蒸留を用いる。
また,本モデルでは,後に時間的制約として使用されるアクション順序を予測し,無注釈ビデオの監督の欠如に対処するため,フレームラベルを推定する。
論文 参考訳(メタデータ) (2022-11-02T17:34:04Z) - A Video Summarization Method Using Temporal Interest Detection and Key
Frame Prediction [3.9596068699962323]
ビデオ要約は、シーケンスラベリングと時間的興味検出問題の組み合わせとして定式化される。
本研究ではまず,フレームレベルの重要度と時間的関心区間を同時に予測するフレキシブル・ユニバーサル・ネットワーク・フレームを構築した。
2つのベンチマークデータセットのテストと分析により,本手法の有効性が証明された。
論文 参考訳(メタデータ) (2021-09-26T12:15:18Z) - Video Annotation for Visual Tracking via Selection and Refinement [74.08109740917122]
ビデオシーケンスのバウンディングボックスアノテーションを容易にするための新しいフレームワークを提案する。
目標位置の時間的コヒーレンスを捉えることのできる時間的アセスメントネットワークを提案する。
また、選択したトラッキング結果をさらに強化するために、ビジュアルジオメトリ・リファインメント・ネットワークが設計されている。
論文 参考訳(メタデータ) (2021-08-09T05:56:47Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - ScribbleBox: Interactive Annotation Framework for Video Object
Segmentation [62.86341611684222]
我々はScribbleBoxを紹介した。これはビデオでオブジェクトインスタンスにマスクを付けるためのインタラクティブなフレームワークだ。
パラメトリック曲線を用いて軌道を近似することにより、ボックストラックを効率的にアノテートする。
我々のScribbleBoxアプローチは、DAVIS 2017で88.92%のJ&Fに達し、ボックストラックあたり9.14クリック、4フレームのアノテーションがある。
論文 参考訳(メタデータ) (2020-08-22T00:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。