論文の概要: NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels
- arxiv url: http://arxiv.org/abs/2110.06827v1
- Date: Wed, 13 Oct 2021 16:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:37:22.072947
- Title: NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels
- Title(参考訳): NoisyActions2M: ノイズラベルからの映像理解のためのマルチメディアデータセット
- Authors: Mohit Sharma, Raj Patra, Harshal Desai, Shruti Vyas, Yogesh Rawat and
Rajiv Ratn Shah
- Abstract要約: 約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
- 参考スコア(独自算出の注目度): 33.659146748289444
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning has shown remarkable progress in a wide range of problems.
However, efficient training of such models requires large-scale datasets, and
getting annotations for such datasets can be challenging and costly. In this
work, we explore the use of user-generated freely available labels from web
videos for video understanding. We create a benchmark dataset consisting of
around 2 million videos with associated user-generated annotations and other
meta information. We utilize the collected dataset for action classification
and demonstrate its usefulness with existing small-scale annotated datasets,
UCF101 and HMDB51. We study different loss functions and two pretraining
strategies, simple and self-supervised learning. We also show how a network
pretrained on the proposed dataset can help against video corruption and label
noise in downstream datasets. We present this as a benchmark dataset in noisy
learning for video understanding. The dataset, code, and trained models will be
publicly available for future research.
- Abstract(参考訳): ディープラーニングは幅広い問題において顕著な進歩を見せている。
しかし、そのようなモデルの効率的なトレーニングには大規模なデータセットが必要である。
本研究では,ビデオ理解のためのWebビデオからのユーザ生成自由なラベルの利用について検討する。
ユーザ生成アノテーションやその他のメタ情報を含む約200万のビデオからなるベンチマークデータセットを作成します。
収集したデータセットをアクション分類に利用し、既存の小規模注釈付きデータセットであるUCF101とHMDB51で有用性を示す。
損失関数と2つの事前学習戦略、単純学習と自己学習について検討する。
また,提案するデータセット上で事前トレーニングされたネットワークが,下流データセットにおけるビデオ破損やラベルノイズに対してどのように役立つかを示す。
ビデオ理解のためのノイズ学習におけるベンチマークデータセットとして提示する。
データセット、コード、トレーニングされたモデルは、将来の研究のために公開されている。
関連論文リスト
- Towards Student Actions in Classroom Scenes: New Dataset and Baseline [43.268586725768465]
複雑な教室シーンを対象とした,SAV(Multi-label student action video)データセットを提案する。
データセットは、758の教室から、4,324の慎重にトリミングされたビデオクリップで構成され、それぞれに15の教室で生徒が表示するアクションがラベル付けされている。
論文 参考訳(メタデータ) (2024-09-02T03:44:24Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Comprehensive Instructional Video Analysis: The COIN Dataset and
Performance Evaluation [100.68317848808327]
包括的インストラクショナルビデオ解析のための大規模データセット「COIN」を提案する。
COINデータセットには、日々の生活に関連する12の領域で180のタスクの11,827の動画が含まれている。
新しい開発ツールボックスでは、すべてのビデオに一連のステップラベルと対応する時間境界がアノテートされる。
論文 参考訳(メタデータ) (2020-03-20T16:59:44Z) - VideoSSL: Semi-Supervised Learning for Video Classification [30.348819309923098]
畳み込みニューラルネットワーク(CNN)を用いたビデオ分類ビデオSSLのための半教師付き学習手法を提案する。
大規模な注釈付きデータセットへの依存を最小限に抑えるため,提案手法は少数のラベル付きサンプルから学習する。
ラベルのない例からの案内信号の監督の下,CNNは印象的な性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-02-29T07:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。