論文の概要: A Toolchain for Comprehensive Audio/Video Analysis Using Deep Learning Based Multimodal Approach (A use case of riot or violent context detection)
- arxiv url: http://arxiv.org/abs/2407.03110v1
- Date: Thu, 2 May 2024 07:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 22:18:55.484586
- Title: A Toolchain for Comprehensive Audio/Video Analysis Using Deep Learning Based Multimodal Approach (A use case of riot or violent context detection)
- Title(参考訳): 深層学習に基づくマルチモーダルアプローチによる包括的音声・映像分析ツールチェーン(暴動・暴力的文脈検出の事例)
- Authors: Lam Pham, Phat Lam, Tin Nguyen, Hieu Tang, Alexander Schindler,
- Abstract要約: 深層学習に基づくマルチモーダルアプローチを利用して,包括的音声・ビデオ分析のためのツールチェーンを提案する。
個々のタスクを組み合わせて、入力されたビデオから抽出されたオーディオデータと視覚データの両方を分析することで、ツールチェーンは様々なオーディオ/ビデオベースのアプリケーションを提供する。
- 参考スコア(独自算出の注目度): 40.20142677441689
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present a toolchain for a comprehensive audio/video analysis by leveraging deep learning based multimodal approach. To this end, different specific tasks of Speech to Text (S2T), Acoustic Scene Classification (ASC), Acoustic Event Detection (AED), Visual Object Detection (VOD), Image Captioning (IC), and Video Captioning (VC) are conducted and integrated into the toolchain. By combining individual tasks and analyzing both audio \& visual data extracted from input video, the toolchain offers various audio/video-based applications: Two general applications of audio/video clustering, comprehensive audio/video summary and a specific application of riot or violent context detection. Furthermore, the toolchain presents a flexible and adaptable architecture that is effective to integrate new models for further audio/video-based applications.
- Abstract(参考訳): 本稿では,ディープラーニングに基づくマルチモーダルアプローチを活用することで,包括的オーディオ/ビデオ分析のためのツールチェーンを提案する。
この目的のために、音声テキスト(S2T)、音響シーン分類(ASC)、音響イベント検出(AED)、ビジュアルオブジェクト検出(VOD)、画像キャプション(IC)、ビデオキャプション(VC)の各特定のタスクを実行し、ツールチェーンに統合する。
個々のタスクを組み合わせて、入力されたビデオから抽出されたオーディオと視覚の両方のデータを解析することにより、ツールチェーンは、様々なオーディオ/ビデオベースのアプリケーションを提供する。
さらに、ツールチェーンはフレキシブルで適応可能なアーキテクチャを提供しており、さらなるオーディオ/ビデオベースのアプリケーションのために新しいモデルを統合するのに効果的である。
関連論文リスト
- CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models [27.54879344983513]
Video-SALMONNは、視覚的なフレームシーケンス、オーディオイベント、音楽だけでなく、音声も理解できる。
Video-SALMONNは、他のav-LLMでは前例のないタスクに対して、驚くべきビデオ理解と推論能力を示す。
論文 参考訳(メタデータ) (2024-06-22T01:36:11Z) - UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization [83.89550658314741]
ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。
本報告では, tal, SED, AVELタスクの協調学習を初めて行うために, 統合音声認識ネットワークUniAVを提案する。
論文 参考訳(メタデータ) (2024-04-04T03:28:57Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - Estimating Visual Information From Audio Through Manifold Learning [14.113590443352495]
音声信号のみを用いてシーンの視覚情報を抽出する新しい枠組みを提案する。
私たちのフレームワークはマニフォールド学習に基づいており、2つのステップから構成されています。
提案手法は,公開されている音声/視覚データセットを用いて,音声から有意義な画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-08-03T20:47:11Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。