論文の概要: Is this Harmful? Learning to Predict Harmfulness Ratings from Video
- arxiv url: http://arxiv.org/abs/2106.08323v1
- Date: Tue, 15 Jun 2021 17:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 16:24:41.564897
- Title: Is this Harmful? Learning to Predict Harmfulness Ratings from Video
- Title(参考訳): これは有害か?
ビデオから有害評価を予測するための学習
- Authors: Johan Edstedt, Johan Karlsson, Francisca Benavente, Anette Novak,
Amanda Berg, Michael Felsberg
- Abstract要約: 現場のプロが注釈を付けた約4000のビデオクリップのデータセットを作成します。
モデリング選択に関する詳細な研究を行い、視覚とオーディオのモダリティを組み合わせることで大きなメリットが得られます。
データセットは公開時に公開します。
- 参考スコア(独自算出の注目度): 15.059547998989537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically identifying harmful content in video is an important task with
a wide range of applications. However, due to the difficulty of collecting
high-quality labels as well as demanding computational requirements, the task
has not had a satisfying general approach. Typically, only small subsets of the
problem are considered, such as identifying violent content. In cases where the
general problem is tackled, rough approximations and simplifications are made
to deal with the lack of labels and computational complexity. In this work, we
identify and tackle the two main obstacles. First, we create a dataset of
approximately 4000 video clips, annotated by professionals in the field.
Secondly, we demonstrate that advances in video recognition enable training
models on our dataset that consider the full context of the scene. We conduct
an in-depth study on our modeling choices and find that we greatly benefit from
combining the visual and audio modality and that pretraining on large-scale
video recognition datasets and class balanced sampling further improves
performance. We additionally perform a qualitative study that reveals the
heavily multi-modal nature of our dataset. Our dataset will be made available
upon publication.
- Abstract(参考訳): ビデオ中の有害なコンテンツを自動的に識別することは、幅広いアプリケーションで重要なタスクである。
しかし、高品質なラベルの収集が困難であり、計算要求も要求されるため、このタスクは一般的なアプローチを満たしていない。
典型的には、暴力的内容の特定など、問題の小さなサブセットのみが考慮される。
一般的な問題に取り組む場合、ラベルの欠如と計算の複雑さに対処するために、粗い近似と単純化が行われる。
本研究では,2つの主要な障害を特定し,対処する。
まず、現場のプロが注釈を付けた約4000のビデオクリップのデータセットを作成します。
第2に,映像認識の進歩により,シーンのフルコンテキストを考慮したデータセットのトレーニングモデルが実現できることを実証する。
モデル選択に関する詳細な調査を行い,視覚と音声のモダリティの組み合わせと,大規模ビデオ認識データセットとクラスバランスサンプリングの事前学習により,パフォーマンスがさらに向上することを示す。
さらに,データセットのマルチモーダルな性質を明らかにする質的研究も行っています。
データセットは公開時に公開します。
関連論文リスト
- Grounded Question-Answering in Long Egocentric Videos [39.281013854331285]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は,クエリグラウンディングと応答を統一モデルに統合することにより,誤りの伝播を低減することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-12-11T16:31:55Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。