論文の概要: Active Learning for Video Classification with Frame Level Queries
- arxiv url: http://arxiv.org/abs/2307.05587v1
- Date: Mon, 10 Jul 2023 15:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 16:06:57.321780
- Title: Active Learning for Video Classification with Frame Level Queries
- Title(参考訳): フレームレベルクエリを用いたビデオ分類のためのアクティブラーニング
- Authors: Debanjan Goswami, Shayok Chakraborty
- Abstract要約: ビデオ分類のための新しいアクティブラーニングフレームワークを提案する。
本フレームワークでは,ビデオ毎に一組の映像と,一組の情報フレームを識別する。
これは、ラベルを付けるための完全なビデオを見るよりも、手作業で作業する方がずっと少ない。
- 参考スコア(独自算出の注目度): 13.135234328352885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning algorithms have pushed the boundaries of computer vision
research and have depicted commendable performance in a variety of
applications. However, training a robust deep neural network necessitates a
large amount of labeled training data, acquiring which involves significant
time and human effort. This problem is even more serious for an application
like video classification, where a human annotator has to watch an entire video
end-to-end to furnish a label. Active learning algorithms automatically
identify the most informative samples from large amounts of unlabeled data;
this tremendously reduces the human annotation effort in inducing a machine
learning model, as only the few samples that are identified by the algorithm,
need to be labeled manually. In this paper, we propose a novel active learning
framework for video classification, with the goal of further reducing the
labeling onus on the human annotators. Our framework identifies a batch of
exemplar videos, together with a set of informative frames for each video; the
human annotator needs to merely review the frames and provide a label for each
video. This involves much less manual work than watching the complete video to
come up with a label. We formulate a criterion based on uncertainty and
diversity to identify the informative videos and exploit representative
sampling techniques to extract a set of exemplar frames from each video. To the
best of our knowledge, this is the first research effort to develop an active
learning framework for video classification, where the annotators need to
inspect only a few frames to produce a label, rather than watching the
end-to-end video.
- Abstract(参考訳): ディープラーニングアルゴリズムは、コンピュータビジョン研究の境界を押し進め、様々なアプリケーションで賞賛できるパフォーマンスを描いている。
しかし、堅牢なディープニューラルネットワークのトレーニングには、大量のラベル付きトレーニングデータが必要である。
この問題は、ビデオ分類のようなアプリケーションにとってさらに深刻な問題であり、人間のアノテータは、ラベルを付けるためにビデオ全体を見る必要がある。
アクティブラーニングアルゴリズムは、大量のラベルのないデータから最も有益なサンプルを自動的に識別する。これは、アルゴリズムによって識別される少数のサンプルのみを手動でラベル付けする必要があるため、機械学習モデルを誘導する人間のアノテーション労力を大幅に削減する。
本稿では,ビデオ分類のための新しい能動的学習フレームワークを提案する。
本フレームワークでは,ビデオ毎に一組の映像と情報フレームを識別するので,人間のアノテータは単にフレームをレビューし,各ビデオにラベルを付けるだけでよい。
これは、ラベルを付けるための完全なビデオを見るよりも、手作業が少ない。
我々は,不確実性と多様性に基づく基準を定式化し,情報化映像を識別し,代表的サンプリング手法を利用して各ビデオから一組の模範フレームを抽出する。
我々の知る限りでは、これはビデオ分類のためのアクティブな学習フレームワークを開発するための最初の研究であり、アノテータは、エンド・ツー・エンドのビデオを見るのではなく、ラベルを生成するために数フレームのみを検査する必要がある。
関連論文リスト
- Multi-View Video-Based Learning: Leveraging Weak Labels for Frame-Level Perception [1.5741307755393597]
本稿では,フレームレベルの認識に弱いラベルを持つビデオベースの行動認識モデルを訓練するための新しい学習フレームワークを提案する。
弱いラベルを用いてモデルを訓練するために,新しい潜在損失関数を提案する。
また、下流フレームレベルの行動認識および検出タスクにビュー固有の潜伏埋め込みを利用するモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T09:47:41Z) - Masked Autoencoder for Unsupervised Video Summarization [10.853922245706716]
自己教師付き学習(SSL)は、複数の下流タスクに対する堅牢性と柔軟性が認められている。
教師なしの自己教師型オートエンコーダは、ビデオ要約モデルとして利用するために、追加の下流アーキテクチャ設計や微調整の重みを必要としない。
本手法は,様々な実験環境下での有効性を示すために,主要な教師なしビデオ要約ベンチマークで評価する。
論文 参考訳(メタデータ) (2023-06-02T09:44:45Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - Multiview Pseudo-Labeling for Semi-supervised Learning from Video [102.36355560553402]
本稿では,映像における半教師付き学習において,外観と動作情報という形で相補的視点を用いた新しい枠組みを提案する。
提案手法は複数のビューを対象とするが,それでも外観と動作の入力間で共有されるモデルを訓練する。
複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。
論文 参考訳(メタデータ) (2021-04-01T17:59:48Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文 参考訳(メタデータ) (2020-08-13T12:40:24Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。