論文の概要: Efficient video annotation with visual interpolation and frame selection
guidance
- arxiv url: http://arxiv.org/abs/2012.12554v1
- Date: Wed, 23 Dec 2020 09:31:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 02:30:49.874718
- Title: Efficient video annotation with visual interpolation and frame selection
guidance
- Title(参考訳): 視覚補間とフレーム選択誘導を用いた効率的なビデオアノテーション
- Authors: A. Kuznetsova, A. Talati, Y. Luo, K. Simmons and V. Ferrari
- Abstract要約: バウンディングボックスを備えたジェネリックビデオアノテーションの統一フレームワークを紹介します。
提案手法は,一般的な線形手法に比べて実測アノテーション時間を50%短縮することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a unified framework for generic video annotation with bounding
boxes. Video annotation is a longstanding problem, as it is a tedious and
time-consuming process. We tackle two important challenges of video annotation:
(1) automatic temporal interpolation and extrapolation of bounding boxes
provided by a human annotator on a subset of all frames, and (2) automatic
selection of frames to annotate manually. Our contribution is two-fold: first,
we propose a model that has both interpolating and extrapolating capabilities;
second, we propose a guiding mechanism that sequentially generates suggestions
for what frame to annotate next, based on the annotations made previously. We
extensively evaluate our approach on several challenging datasets in simulation
and demonstrate a reduction in terms of the number of manual bounding boxes
drawn by 60% over linear interpolation and by 35% over an off-the-shelf
tracker. Moreover, we also show 10% annotation time improvement over a
state-of-the-art method for video annotation with bounding boxes [25]. Finally,
we run human annotation experiments and provide extensive analysis of the
results, showing that our approach reduces actual measured annotation time by
50% compared to commonly used linear interpolation.
- Abstract(参考訳): 我々は、バウンディングボックス付きジェネリックビデオアノテーションのための統合フレームワークを導入する。
ビデオアノテーションは退屈で時間を要するプロセスであるため、長年にわたる問題です。
ビデオアノテーションの2つの重要な課題は,(1)全フレームのサブセットに人間の注釈器によって提供される境界ボックスの自動補間と補間,(2)手動で注釈を行うためのフレームの自動選択である。
第一に,補間能力と補間能力の両方を有するモデルを提案し,第二に,前述したアノテーションに基づいて,次にアノテートするフレームの提案を逐次生成する誘導機構を提案する。
シミュレーションにおいて,いくつかの難解なデータセットに対するアプローチを広範囲に評価し,線形補間よりも60%,市販トラッカーより35%,手動境界ボックス数を削減できることを実証した。
さらに,バウンディングボックス[25]を用いたビデオアノテーションの最先端手法に対して,10%のアノテーション時間の改善を示す。
最後に,人間のアノテーション実験を行い,その結果の広範囲な分析を行い,従来の線形補間に比べて実際のアノテーション処理時間を50%削減できることを示した。
関連論文リスト
- Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - Video Shadow Detection via Spatio-Temporal Interpolation Consistency
Training [31.115226660100294]
本稿では、ラベル付き画像とともにラベル付きビデオフレームを画像陰影検出ネットワークトレーニングに供給するフレームワークを提案する。
次に,画素ワイド分類における一般化の促進のために,空間的および時間的整合性の制約を導出する。
さらに,画像のマルチスケール影知識学習のためのスケール・アウェア・ネットワークを設計する。
論文 参考訳(メタデータ) (2022-06-17T14:29:51Z) - Video Moment Retrieval from Text Queries via Single Frame Annotation [65.92224946075693]
ビデオモーメント検索は、与えられた自然言語クエリによって記述されたモーメントの開始と終了のタイムスタンプを見つけることを目的としている。
完全な教師付き手法は、有望な結果を達成するために完全な時間境界アノテーションを必要とする。
我々は「用語アノテーション」と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-20T11:59:17Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - A Video Summarization Method Using Temporal Interest Detection and Key
Frame Prediction [3.9596068699962323]
ビデオ要約は、シーケンスラベリングと時間的興味検出問題の組み合わせとして定式化される。
本研究ではまず,フレームレベルの重要度と時間的関心区間を同時に予測するフレキシブル・ユニバーサル・ネットワーク・フレームを構築した。
2つのベンチマークデータセットのテストと分析により,本手法の有効性が証明された。
論文 参考訳(メタデータ) (2021-09-26T12:15:18Z) - Video Annotation for Visual Tracking via Selection and Refinement [74.08109740917122]
ビデオシーケンスのバウンディングボックスアノテーションを容易にするための新しいフレームワークを提案する。
目標位置の時間的コヒーレンスを捉えることのできる時間的アセスメントネットワークを提案する。
また、選択したトラッキング結果をさらに強化するために、ビジュアルジオメトリ・リファインメント・ネットワークが設計されている。
論文 参考訳(メタデータ) (2021-08-09T05:56:47Z) - Heuristics2Annotate: Efficient Annotation of Large-Scale Marathon
Dataset For Bounding Box Regression [8.078491757252692]
我々はマラソンランナーの大規模インザワイルドビデオデータセットを収集した。
このデータセットは、42台のハンドヘルドスマートフォンカメラで撮影された数千人のランナーの記録から成り立っている。
このような大規模データセットのアノテーションにおける課題に取り組むための新しいスキームを提案する。
論文 参考訳(メタデータ) (2021-04-06T19:08:31Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。