論文の概要: MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using
Transformers
- arxiv url: http://arxiv.org/abs/2308.03741v1
- Date: Tue, 1 Aug 2023 11:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 00:38:46.202143
- Title: MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using
Transformers
- Title(参考訳): MAiVAR-T:トランスフォーマーを用いたマルチモーダルオーディオ画像とビデオアクション認識装置
- Authors: Muhammad Bilal Shaikh, Douglas Chai, Syed Mohammed Shamsul Islam and
Naveed Akhtar
- Abstract要約: オーディオ画像とビデオのモダリティを組み合わせた新しいモデルを提案する。
このモデルは、オーディオ画像とビデオモダリティの組み合わせに直感的なアプローチを採用する。
ベンチマーク動作認識データセット上で実施した経験的評価は,そのモデルの顕著な性能を裏付けるものである。
- 参考スコア(独自算出の注目度): 18.72489078928417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In line with the human capacity to perceive the world by simultaneously
processing and integrating high-dimensional inputs from multiple modalities
like vision and audio, we propose a novel model, MAiVAR-T (Multimodal
Audio-Image to Video Action Recognition Transformer). This model employs an
intuitive approach for the combination of audio-image and video modalities,
with a primary aim to escalate the effectiveness of multimodal human action
recognition (MHAR). At the core of MAiVAR-T lies the significance of distilling
substantial representations from the audio modality and transmuting these into
the image domain. Subsequently, this audio-image depiction is fused with the
video modality to formulate a unified representation. This concerted approach
strives to exploit the contextual richness inherent in both audio and video
modalities, thereby promoting action recognition. In contrast to existing
state-of-the-art strategies that focus solely on audio or video modalities,
MAiVAR-T demonstrates superior performance. Our extensive empirical evaluations
conducted on a benchmark action recognition dataset corroborate the model's
remarkable performance. This underscores the potential enhancements derived
from integrating audio and video modalities for action recognition purposes.
- Abstract(参考訳): 視覚や音声などの複数のモードからの高次元入力を同時に処理・統合することで世界を認識する人間の能力に合わせて,MAiVAR-T(Multimodal Audio-Image to Video Action Recognition Transformer)を提案する。
このモデルは,マルチモーダル・ヒューマン・アクション認識(MHAR)の有効性を高めるために,オーディオ画像とビデオモダリティの組み合わせに直感的なアプローチを採用する。
MAiVAR-Tの中核にあるのは、オーディオモダリティから実質的な表現を蒸留し、これらを画像領域に変換することである。
その後、このオーディオ画像描写はビデオモダリティと融合して統一表現を定式化する。
この協調的なアプローチは、オーディオとビデオの両方に固有のコンテキスト豊かさを活用し、アクション認識を促進することを目指している。
MAiVAR-Tは、オーディオやビデオのモダリティにのみフォーカスする既存の最先端戦略とは対照的に、優れたパフォーマンスを示している。
ベンチマーク動作認識データセット上で行った広範な経験的評価は,モデルの顕著な性能を裏付けるものだ。
このことは、行動認識のためのオーディオとビデオのモダリティの統合による潜在的な拡張を裏付けるものである。
関連論文リスト
- VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。
VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文 参考訳(メタデータ) (2024-10-01T16:06:02Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Multi-Microphone and Multi-Modal Emotion Recognition in Reverberant Environment [11.063156506583562]
本稿では,難聴時の感情認識精度を高めるために,マルチモーダル感情認識(MER)システムを提案する。
提案手法は,マルチチャンネル音声処理のための階層型音声変換器(HTS-AT)とビデオ解析のためのR(2+1)D畳み込みニューラルネットワーク(CNN)モデルを組み合わせたものである。
論文 参考訳(メタデータ) (2024-09-14T21:58:39Z) - Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - MAiVAR: Multimodal Audio-Image and Video Action Recognizer [18.72489078928417]
我々は,CNNの表現プロセスが,タスクに画像に基づく行動表現を組み込むことで,マルチモーダルな行動認識にも活用できるかどうかを検討する。
本稿では,CNNを用いた映像融合モデルを提案する。
論文 参考訳(メタデータ) (2022-09-11T03:52:27Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。