論文の概要: An Audio-Visual Dataset and Deep Learning Frameworks for Crowded Scene
Classification
- arxiv url: http://arxiv.org/abs/2112.09172v1
- Date: Thu, 16 Dec 2021 19:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 16:12:38.887071
- Title: An Audio-Visual Dataset and Deep Learning Frameworks for Crowded Scene
Classification
- Title(参考訳): 混み合ったシーン分類のための視聴覚データセットとディープラーニングフレームワーク
- Authors: Lam Pham, Dat Ngo, Phu X. Nguyen, Truong Hoang, Alexander Schindler
- Abstract要約: 本稿では,音声視覚シーン分類(SC)の課題について述べる。
この課題において、入力ビデオは「リオト」、「ノワーズ・ストリート」、「ファイアワーク・イベント」、「ミュージック・イベント」、そして「スポーツ・アトムスフィア」の5つの実物混みのシーンのうちの1つに分類される。
- 参考スコア(独自算出の注目度): 58.720142291102135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a task of audio-visual scene classification (SC) where
input videos are classified into one of five real-life crowded scenes: 'Riot',
'Noise-Street', 'Firework-Event', 'Music-Event', and 'Sport-Atmosphere'. To
this end, we firstly collect an audio-visual dataset (videos) of these five
crowded contexts from Youtube (in-the-wild scenes). Then, a wide range of deep
learning frameworks are proposed to deploy either audio or visual input data
independently. Finally, results obtained from high-performed deep learning
frameworks are fused to achieve the best accuracy score. Our experimental
results indicate that audio and visual input factors independently contribute
to the SC task's performance. Significantly, an ensemble of deep learning
frameworks exploring either audio or visual input data can achieve the best
accuracy of 95.7%.
- Abstract(参考訳): 本稿では,入力映像を「riot」,「noise-street」,「firework-event」,「music-event」,「sport-atmosphere」の5つの実生活の混み合ったシーンの1つに分類する。
この目的のために,まず,この5つの混み合ったコンテキストの音声・視覚データセット(ビデオ)をYoutubeから収集する。
そして、音声と視覚の入力データを独立してデプロイするために、幅広いディープラーニングフレームワークが提案されている。
最後に、ハイパフォーマンスなディープラーニングフレームワークから得られた結果を融合して、最高の精度スコアを得る。
実験結果から,音声と視覚の入力要因はSCタスクのパフォーマンスに独立して寄与することが示唆された。
重要なことに、オーディオまたは視覚入力データのいずれかを探索するディープラーニングフレームワークの集合は、95.7%の精度を達成することができる。
関連論文リスト
- Audio-Visual LLM for Video Understanding [25.963166809113005]
本稿では,視覚的および聴覚的入力を総合的ビデオ理解に用いたマルチモーダル大言語モデルであるAudio-Visual LLMを提案する。
GPT-4から派生した高品質のビデオ命令データセットを提案する。
実験により、オーディオ・ビジュアルのLLMは、様々なビデオ理解タスクで強いゼロショット結果が得られることが実証された。
論文 参考訳(メタデータ) (2023-12-11T02:50:46Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。