論文の概要: AViD Dataset: Anonymized Videos from Diverse Countries
- arxiv url: http://arxiv.org/abs/2007.05515v3
- Date: Tue, 3 Nov 2020 15:10:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 22:18:42.314395
- Title: AViD Dataset: Anonymized Videos from Diverse Countries
- Title(参考訳): AViDデータセット:海外の動画を匿名化
- Authors: AJ Piergiovanni and Michael S. Ryoo
- Abstract要約: 我々は、アクション認識のための新しい公開ビデオデータセットを紹介する: 海外の匿名化ビデオ(AViD)
既存の公開ビデオデータセットとは異なり、AViDはさまざまな国のアクションビデオのコレクションである。
AViDビデオの顔の身元はすべて、プライバシーを守るために適切に匿名化されている。
- 参考スコア(独自算出の注目度): 80.8000931384776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new public video dataset for action recognition: Anonymized
Videos from Diverse countries (AViD). Unlike existing public video datasets,
AViD is a collection of action videos from many different countries. The
motivation is to create a public dataset that would benefit training and
pretraining of action recognition models for everybody, rather than making it
useful for limited countries. Further, all the face identities in the AViD
videos are properly anonymized to protect their privacy. It also is a static
dataset where each video is licensed with the creative commons license. We
confirm that most of the existing video datasets are statistically biased to
only capture action videos from a limited number of countries. We
experimentally illustrate that models trained with such biased datasets do not
transfer perfectly to action videos from the other countries, and show that
AViD addresses such problem. We also confirm that the new AViD dataset could
serve as a good dataset for pretraining the models, performing comparably or
better than prior datasets.
- Abstract(参考訳): 我々は,アクション認識のための新しい公開ビデオデータセットであるavid(anonymized video from diverse countries)を紹介する。
既存の公開ビデオデータセットとは異なり、AViDはさまざまな国のアクションビデオのコレクションである。
その動機は、限られた国に役立てるのではなく、全員のための行動認識モデルのトレーニングと事前訓練に役立てるパブリックデータセットを作ることだ。
さらに、AViDビデオの顔のアイデンティティはすべて、プライバシーを保護するために適切に匿名化されている。
また、静的データセットであり、各ビデオはcreative commonsライセンスでライセンスされている。
既存のビデオデータセットのほとんどは統計的に偏りがあり、限られた国のアクションビデオのみをキャプチャする。
このようなバイアス付きデータセットでトレーニングされたモデルは、他国のアクションビデオに完全に移行していないことを実験的に説明し、AViDがそのような問題に対処していることを示す。
また、新しいAViDデータセットは、モデルの事前トレーニングに適したデータセットとして機能し、以前のデータセットよりも互換性のある、あるいは優れたパフォーマンスを実現しています。
関連論文リスト
- WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding [30.06191555110948]
本研究では,1078本のアマチュア映画を公開するショートフィルムデータセットを提案する。
本実験は,SFD課題を解決するための長期的推論の必要性を強調した。
視覚データのみを使用する場合と比較して、現在のモデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2024-06-14T17:54:54Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - VEATIC: Video-based Emotion and Affect Tracking in Context Dataset [34.77364955121413]
私たちは、コンテキストデータセット(VEATIC)におけるビデオベースの感情と感情追跡という、まったく新しい大きなデータセットを導入しました。
VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。
提案するコンピュータビジョンタスクでは,映像フレームのコンテキスト情報と文字情報の両方を用いて,選択した文字の影響を推測する。
論文 参考訳(メタデータ) (2023-09-13T06:31:35Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey [42.22801056661226]
行動認識などのビデオ分析タスクは、スマートヘルスケアなどの分野における応用の増大に対して、研究の関心が高まっている。
既存のデータセットでトレーニングされたビデオモデルは、現実世界のアプリケーションに直接デプロイした場合、大幅にパフォーマンスが低下する。
ラベル付きソースドメインからラベル付きターゲットドメインにビデオモデルを適用するために、ビデオアン教師付きドメイン適応(VUDA)が導入される。
論文 参考訳(メタデータ) (2022-11-17T05:05:42Z) - VIDI: A Video Dataset of Incidents [5.002873541686896]
本稿では、43のインシデントカテゴリに対応する4,534のビデオクリップを含むビデオデータセット、ビデオインシデントデータセット(VIDI)を提案する。
多様性を高めるために、ビデオはいくつかの言語で検索されている。
その結果,近年の手法により,事故分類精度が向上していることが判明した。
論文 参考訳(メタデータ) (2022-05-26T11:30:59Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - EEV: A Large-Scale Dataset for Studying Evoked Expressions from Video [23.95850953376425]
Evoked Expressions from Videos データセットは、ビデオに対する視聴者の反応を研究するための大規模なデータセットである。
各ビデオは6Hzでアノテートされ、ビデオに反応した視聴者の表情に対応する15の連続的な誘発された表現ラベルが付与される。
23,574本のビデオ(1,700時間)に対する3670万の顔反応アノテーションがある
論文 参考訳(メタデータ) (2020-01-15T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。