論文の概要: MAiVAR: Multimodal Audio-Image and Video Action Recognizer
- arxiv url: http://arxiv.org/abs/2209.04780v1
- Date: Sun, 11 Sep 2022 03:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:14:19.755102
- Title: MAiVAR: Multimodal Audio-Image and Video Action Recognizer
- Title(参考訳): MAiVAR:マルチモーダルオーディオ画像とビデオアクション認識装置
- Authors: Muhammad Bilal Shaikh, Douglas Chai, Syed Mohammed Shamsul Islam and
Naveed Akhtar
- Abstract要約: 我々は,CNNの表現プロセスが,タスクに画像に基づく行動表現を組み込むことで,マルチモーダルな行動認識にも活用できるかどうかを検討する。
本稿では,CNNを用いた映像融合モデルを提案する。
- 参考スコア(独自算出の注目度): 18.72489078928417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, action recognition is predominately performed on video data as
processed by CNNs. We investigate if the representation process of CNNs can
also be leveraged for multimodal action recognition by incorporating
image-based audio representations of actions in a task. To this end, we propose
Multimodal Audio-Image and Video Action Recognizer (MAiVAR), a CNN-based
audio-image to video fusion model that accounts for video and audio modalities
to achieve superior action recognition performance. MAiVAR extracts meaningful
image representations of audio and fuses it with video representation to
achieve better performance as compared to both modalities individually on a
large-scale action recognition dataset.
- Abstract(参考訳): 現在、cnnで処理されるビデオデータにおいて、行動認識が優先的に行われる。
我々は,CNNの表現プロセスが,タスクに画像に基づく行動表現を組み込むことで,マルチモーダルな行動認識にも活用できるかどうかを検討する。
そこで本研究では,cnnによる映像と映像の融合モデルであるマルチモーダル音声画像・映像アクション認識器(maivar)を提案する。
MAiVARは、音声の有意義な画像表現を抽出し、ビデオ表現と融合して、大規模な行動認識データセットにおいて、両方のモーダルティを個別に比較すると、より良いパフォーマンスを達成する。
関連論文リスト
- VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。
VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文 参考訳(メタデータ) (2024-10-01T16:06:02Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - AV-MaskEnhancer: Enhancing Video Representations through Audio-Visual
Masked Autoencoder [3.8735222804007394]
視覚情報と音声情報を組み合わせて高品質な映像表現を学習するためのAV-MaskEnhancerを提案する。
本手法は,モーダリティコンテンツにおける音声とビデオの特徴の相補的な性質を実証することによる課題に対処する。
論文 参考訳(メタデータ) (2023-09-15T19:56:15Z) - MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using
Transformers [18.72489078928417]
オーディオ画像とビデオのモダリティを組み合わせた新しいモデルを提案する。
このモデルは、オーディオ画像とビデオモダリティの組み合わせに直感的なアプローチを採用する。
ベンチマーク動作認識データセット上で実施した経験的評価は,そのモデルの顕著な性能を裏付けるものである。
論文 参考訳(メタデータ) (2023-08-01T11:00:25Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。