論文の概要: Look and Listen: A Multi-modality Late Fusion Approach to Scene
Classification for Autonomous Machines
- arxiv url: http://arxiv.org/abs/2007.10175v1
- Date: Sat, 11 Jul 2020 16:47:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 13:26:25.600418
- Title: Look and Listen: A Multi-modality Late Fusion Approach to Scene
Classification for Autonomous Machines
- Title(参考訳): Look and Listen: 自律機械のシーン分類のためのマルチモーダルレイトフュージョンアプローチ
- Authors: Jordan J. Bird, Diego R. Faria, Cristiano Premebida, Anik\'o Ek\'art,
George Vogiatzis
- Abstract要約: 本研究の新規性は,画像と音声が深層融合の過程において相互に補完するシーン分類への多様性アプローチである。
このアプローチは、16,000のデータオブジェクトの2つの同期およびバランスの取れたデータセットからなる、難しい分類問題に対して実証される。
単一モダリティが異常なデータポイントによって混同される可能性がある状況は、より高次な統合によって修正されていることを示す。
- 参考スコア(独自算出の注目度): 5.452798072984612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The novelty of this study consists in a multi-modality approach to scene
classification, where image and audio complement each other in a process of
deep late fusion. The approach is demonstrated on a difficult classification
problem, consisting of two synchronised and balanced datasets of 16,000 data
objects, encompassing 4.4 hours of video of 8 environments with varying degrees
of similarity. We first extract video frames and accompanying audio at one
second intervals. The image and the audio datasets are first classified
independently, using a fine-tuned VGG16 and an evolutionary optimised deep
neural network, with accuracies of 89.27% and 93.72%, respectively. This is
followed by late fusion of the two neural networks to enable a higher order
function, leading to accuracy of 96.81% in this multi-modality classifier with
synchronised video frames and audio clips. The tertiary neural network
implemented for late fusion outperforms classical state-of-the-art classifiers
by around 3% when the two primary networks are considered as feature
generators. We show that situations where a single-modality may be confused by
anomalous data points are now corrected through an emerging higher order
integration. Prominent examples include a water feature in a city misclassified
as a river by the audio classifier alone and a densely crowded street
misclassified as a forest by the image classifier alone. Both are examples
which are correctly classified by our multi-modality approach.
- Abstract(参考訳): 本研究の新規性は,画像と音声が深層融合の過程において相互に補完するシーン分類への多様性アプローチである。
このアプローチは、16,000のデータオブジェクトの2つの同期とバランスの取れたデータセットからなり、類似度が異なる8つの環境の4.4時間の動画を包含する難しい分類問題で実証されている。
まず、ビデオフレームを抽出し、1秒間隔でオーディオを付加する。
画像と音声データセットは、それぞれ89.27%と93.72%の精度で、微調整されたvgg16と進化最適化されたディープニューラルネットワークを使用して、最初に独立に分類される。
続く2つのニューラルネットワークの後期融合により高次関数が実現され、このマルチモーダル分類器では96.81%の精度でビデオフレームとオーディオクリップが同期される。
late fusionのために実装された第3次ニューラルネットワークは、2つのプライマリネットワークを特徴生成器と見なす場合、従来の最先端の分類器を約3%上回る。
単一モダリティが異常なデータポイントと混同される可能性のある状況が、新たに出現する高次統合によって修正されることを示す。
代表的な例としては、オーディオ分類器単独で川と誤分類された都市の水の特徴と、画像分類器単独で森と誤分類された密集した通りがある。
どちらも、マルチモダリティアプローチによって正しく分類された例です。
関連論文リスト
- Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。
本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。
実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文 参考訳(メタデータ) (2022-10-26T15:21:39Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Squeeze-Excitation Convolutional Recurrent Neural Networks for
Audio-Visual Scene Classification [4.191965713559235]
本稿では,自動シーン分類のためのマルチモーダルモデルを提案する。
聴覚情報と視覚情報を同時に利用する。
予測性能とシステムの複雑さとの間には、優れたトレードオフがあることが示されている。
論文 参考訳(メタデータ) (2021-07-28T06:10:10Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Correlated Input-Dependent Label Noise in Large-Scale Image
Classification [4.979361059762468]
我々は、データセット内のラベルノイズとしてヘテロセダスティック(herescedastic, label noise)として知られる入力依存のモデリングに対して、原則的な確率論的アプローチをとる。
学習された共分散構造は、意味的に類似したクラスと共起するクラスの間のラベルノイズの既知の情報源をキャプチャする。
We set a new-of-the-art results on WebVision 1.0 with 76.6% top-1 accuracy。
論文 参考訳(メタデータ) (2021-05-19T17:30:59Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Not only Look, but also Listen: Learning Multimodal Violence Detection
under Weak Supervision [10.859792341257931]
われわれはまず、XD-Violenceという大規模なマルチシーンデータセットを217時間でリリースした。
ビデオスニペット間の異なる関係を捉え,特徴を統合するために,3つの並列分岐を含むニューラルネットワークを提案する。
提案手法は,我々のリリースしたデータセットや他の既存のベンチマークにおいて,最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-07-09T10:29:31Z) - End-to-End Lip Synchronisation Based on Pattern Classification [15.851638021923875]
本稿では,音声ストリームと対応するビデオストリームのオフセットを直接予測できるエンドツーエンドトレーニングネットワークを提案する。
提案手法は, LRS2 と LRS3 のデータセットにおいて, 先行研究よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-18T11:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。