論文の概要: Navigating an Ocean of Video Data: Deep Learning for Humpback Whale
Classification in YouTube Videos
- arxiv url: http://arxiv.org/abs/2212.00822v1
- Date: Thu, 1 Dec 2022 19:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 17:34:23.156991
- Title: Navigating an Ocean of Video Data: Deep Learning for Humpback Whale
Classification in YouTube Videos
- Title(参考訳): ビデオデータの海をナビゲートする:YouTubeビデオのハンプバッククジラ分類のためのディープラーニング
- Authors: Michelle Ramirez
- Abstract要約: 我々は、YouTubeビデオの分類にImageNetデータセットで事前訓練されたCNNRNNアーキテクチャを使用する。
平均85.7%の精度、84.7%(無関係)/86.6%(関連)のF1スコアを5倍のクロスバリデーションを用いて達成した。
深層学習は、ソーシャルメディアを生物多様性評価のための画像およびビデオデータの有効源とするために、時間効率のよいステップとして利用できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image analysis technologies empowered by artificial intelligence (AI) have
proved images and videos to be an opportune source of data to learn about
humpback whale (Megaptera novaeangliae) population sizes and dynamics. With the
advent of social media, platforms such as YouTube present an abundance of video
data across spatiotemporal contexts documenting humpback whale encounters from
users worldwide. In our work, we focus on automating the classification of
YouTube videos as relevant or irrelevant based on whether they document a true
humpback whale encounter or not via deep learning. We use a CNN-RNN
architecture pretrained on the ImageNet dataset for classification of YouTube
videos as relevant or irrelevant. We achieve an average 85.7% accuracy, and
84.7% (irrelevant)/ 86.6% (relevant) F1 scores using five-fold cross validation
for evaluation on the dataset. We show that deep learning can be used as a
time-efficient step to make social media a viable source of image and video
data for biodiversity assessments.
- Abstract(参考訳): 人工知能(AI)によって強化された画像解析技術は、画像とビデオがハチクジラ(Megaptera novaeangliae)の個体数と動態を学習するための貴重なデータ源であることが証明された。
ソーシャルメディアの出現に伴い、YouTubeのようなプラットフォームは、世界中のユーザーからのハチクジラの遭遇を記録できる、時空間にまたがる大量のビデオデータを提示する。
本研究では,本研究の焦点は,深層学習によるハチの遭遇を文書化するかどうかに基づいて,YouTubeビデオの分類を関連性あるいは無関係性として自動化することである。
我々は、YouTubeビデオの分類にImageNetデータセットで事前訓練されたCNN-RNNアーキテクチャを使用する。
平均85.7%の精度、84.7%(無関係)/86.6%(関連)のF1スコアを5倍のクロス検証を用いてデータセット上で評価する。
深層学習は、ソーシャルメディアを生物多様性評価のための画像およびビデオデータの有効源とするために、時間効率のよいステップとして利用できることを示す。
関連論文リスト
- Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - Revisiting Feature Prediction for Learning Visual Representations from Video [62.08833572467379]
V-JEPAは、機能予測の目的のみを用いて訓練された視覚モデルの集合である。
モデルは、公開データセットから収集された200万のビデオに基づいてトレーニングされる。
以上の結果から,映像特徴の予測による学習が視覚表現の多目的化につながることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T18:59:11Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis [60.13902294276283]
我々は826の動画(413のリアルと413の操作)からなるデータセットであるVideoShamを提示する。
既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。
我々の分析によると、最先端の操作検出アルゴリズムはいくつかの特定の攻撃に対してのみ有効であり、VideoShamではうまくスケールしない。
論文 参考訳(メタデータ) (2022-07-26T17:39:04Z) - Misinformation Detection on YouTube Using Video Captions [6.503828590815483]
本研究では,最新のNLP技術を用いて映像キャプション(字幕)から特徴を抽出する手法を提案する。
提案手法を評価するために,動画を誤情報か否かを分類するために,公開アクセス可能なラベル付きデータセットを用いた。
論文 参考訳(メタデータ) (2021-07-02T10:02:36Z) - Space-Time Crop & Attend: Improving Cross-modal Video Representation
Learning [88.71867887257274]
トリミングのような空間拡張はビデオでもうまく機能するが、以前の実装ではうまく機能するのに十分な規模でこれを行うことができなかった。
そこで本研究ではまず,このような拡張をより効率的にシミュレートする手法であるFeature Cropについて紹介する。
第2に,ナイーブ平均プーリングとは対照的に,変圧器に基づく注意性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-03-18T12:32:24Z) - Creating a Large-scale Synthetic Dataset for Human Activity Recognition [0.8250374560598496]
ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
論文 参考訳(メタデータ) (2020-07-21T22:20:21Z) - Ensembles of Deep Neural Networks for Action Recognition in Still Images [3.7900158137749336]
本稿では,大量のラベル付き行動認識データセットの欠如に対処するための伝達学習手法を提案する。
フレームワークには8つのトレーニング済みのCNNも使用して、Stanford 40データセットのパフォーマンスを調査しています。
我々の手法の最良の設定は、スタンフォード40データセットで93.17$%の精度を達成することができる。
論文 参考訳(メタデータ) (2020-03-22T13:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。