Fugu-MT 論文翻訳(概要): Efficient video annotation with visual interpolation and frame selection guidance

論文の概要: Efficient video annotation with visual interpolation and frame selection guidance

arxiv url: http://arxiv.org/abs/2012.12554v1
Date: Wed, 23 Dec 2020 09:31:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-26 02:30:49.874718
Title: Efficient video annotation with visual interpolation and frame selection guidance
Title（参考訳）: 視覚補間とフレーム選択誘導を用いた効率的なビデオアノテーション
Authors: A. Kuznetsova, A. Talati, Y. Luo, K. Simmons and V. Ferrari
Abstract要約: バウンディングボックスを備えたジェネリックビデオアノテーションの統一フレームワークを紹介します。提案手法は,一般的な線形手法に比べて実測アノテーション時間を50%短縮することを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a unified framework for generic video annotation with bounding boxes. Video annotation is a longstanding problem, as it is a tedious and time-consuming process. We tackle two important challenges of video annotation: (1) automatic temporal interpolation and extrapolation of bounding boxes provided by a human annotator on a subset of all frames, and (2) automatic selection of frames to annotate manually. Our contribution is two-fold: first, we propose a model that has both interpolating and extrapolating capabilities; second, we propose a guiding mechanism that sequentially generates suggestions for what frame to annotate next, based on the annotations made previously. We extensively evaluate our approach on several challenging datasets in simulation and demonstrate a reduction in terms of the number of manual bounding boxes drawn by 60% over linear interpolation and by 35% over an off-the-shelf tracker. Moreover, we also show 10% annotation time improvement over a state-of-the-art method for video annotation with bounding boxes [25]. Finally, we run human annotation experiments and provide extensive analysis of the results, showing that our approach reduces actual measured annotation time by 50% compared to commonly used linear interpolation.
Abstract（参考訳）: 我々は、バウンディングボックス付きジェネリックビデオアノテーションのための統合フレームワークを導入する。ビデオアノテーションは退屈で時間を要するプロセスであるため、長年にわたる問題です。ビデオアノテーションの2つの重要な課題は,(1)全フレームのサブセットに人間の注釈器によって提供される境界ボックスの自動補間と補間,(2)手動で注釈を行うためのフレームの自動選択である。第一に,補間能力と補間能力の両方を有するモデルを提案し,第二に,前述したアノテーションに基づいて,次にアノテートするフレームの提案を逐次生成する誘導機構を提案する。シミュレーションにおいて,いくつかの難解なデータセットに対するアプローチを広範囲に評価し,線形補間よりも60%,市販トラッカーより35%,手動境界ボックス数を削減できることを実証した。さらに,バウンディングボックス[25]を用いたビデオアノテーションの最先端手法に対して,10%のアノテーション時間の改善を示す。最後に,人間のアノテーション実験を行い,その結果の広範囲な分析を行い,従来の線形補間に比べて実際のアノテーション処理時間を50%削減できることを示した。

関連論文リスト

Subject-driven Video Generation via Disentangled Identity and Motion [52.54835936914813]
本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。提案手法は、ゼロショット設定で既存のビデオカスタマイズモデルよりも優れた、強力な被写体整合性とスケーラビリティを実現する。
論文参考訳（メタデータ） (2025-04-23T06:48:31Z)
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文参考訳（メタデータ） (2024-10-08T03:01:54Z)
HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions [59.71751978599567]
本稿では,時間的ビデオアノテーションプロセスの高速化のために,事前抽出した特徴量と次元減少量を用いた新しいアノテーションパイプラインを提案する。従来のリニア手法と比較して,アノテーションの取り組みが大幅に改善され,12時間以上のビデオのアノテートに要するクリック数が10倍以上に短縮された。
論文参考訳（メタデータ） (2024-09-16T18:15:38Z)
On-the-Fly Point Annotation for Fast Medical Video Labeling [1.890063512530524]
医学研究において、ディープラーニングモデルは高品質な注釈付きデータに依存している。 2つのコーナーを調整する必要があるため、プロセスは本質的にフレーム単位で行われる。そこで本研究では,ライブビデオアノテーションのオンザフライ方式を提案し,アノテーションの効率を向上させる。
論文参考訳（メタデータ） (2024-04-22T16:59:43Z)
SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations [12.139451002212063]
SSVODはビデオのモーションダイナミクスを利用して、スパースアノテーション付き大規模未ラベルフレームを利用する。提案手法は,ImageNet-VID, Epic-KITCHENS, YouTube-VISの既存手法に比べて,大幅な性能向上を実現している。
論文参考訳（メタデータ） (2023-09-04T06:41:33Z)
Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文参考訳（メタデータ） (2023-06-08T19:54:08Z)
Distill and Collect for Semi-Supervised Temporal Action Segmentation [0.0]
本稿では,注釈付きおよび注釈なしのビデオシーケンスからの知識を同時に活用する時間的行動分割タスクを提案する。提案手法では, 繰り返し精製し, 最終的にフレーム予測を組み合わすマルチストリーム蒸留を用いる。また,本モデルでは,後に時間的制約として使用されるアクション順序を予測し,無注釈ビデオの監督の欠如に対処するため,フレームラベルを推定する。
論文参考訳（メタデータ） (2022-11-02T17:34:04Z)
A Video Summarization Method Using Temporal Interest Detection and Key Frame Prediction [3.9596068699962323]
ビデオ要約は、シーケンスラベリングと時間的興味検出問題の組み合わせとして定式化される。本研究ではまず,フレームレベルの重要度と時間的関心区間を同時に予測するフレキシブル・ユニバーサル・ネットワーク・フレームを構築した。 2つのベンチマークデータセットのテストと分析により,本手法の有効性が証明された。
論文参考訳（メタデータ） (2021-09-26T12:15:18Z)
Video Annotation for Visual Tracking via Selection and Refinement [74.08109740917122]
ビデオシーケンスのバウンディングボックスアノテーションを容易にするための新しいフレームワークを提案する。目標位置の時間的コヒーレンスを捉えることのできる時間的アセスメントネットワークを提案する。また、選択したトラッキング結果をさらに強化するために、ビジュアルジオメトリ・リファインメント・ネットワークが設計されている。
論文参考訳（メタデータ） (2021-08-09T05:56:47Z)
Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文参考訳（メタデータ） (2021-04-06T09:48:38Z)
ScribbleBox: Interactive Annotation Framework for Video Object Segmentation [62.86341611684222]
我々はScribbleBoxを紹介した。これはビデオでオブジェクトインスタンスにマスクを付けるためのインタラクティブなフレームワークだ。パラメトリック曲線を用いて軌道を近似することにより、ボックストラックを効率的にアノテートする。我々のScribbleBoxアプローチは、DAVIS 2017で88.92%のJ&Fに達し、ボックストラックあたり9.14クリック、4フレームのアノテーションがある。
論文参考訳（メタデータ） (2020-08-22T00:33:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。