論文の概要: TMac: Temporal Multi-Modal Graph Learning for Acoustic Event
Classification
- arxiv url: http://arxiv.org/abs/2309.11845v2
- Date: Tue, 26 Sep 2023 08:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 20:36:23.652749
- Title: TMac: Temporal Multi-Modal Graph Learning for Acoustic Event
Classification
- Title(参考訳): TMac:音響イベント分類のための時間的マルチモーダルグラフ学習
- Authors: Meng Liu, Ke Liang, Dayu Hu, Hao Yu, Yue Liu, Lingyuan Meng, Wenxuan
Tu, Sihang Zhou, Xinwang Liu
- Abstract要約: 本稿では,TMacと呼ばれる音響事象分類のための時間多重モーダルグラフ学習法を提案する。
特に,音響イベント毎に時間グラフを構築し,音声データと映像データを複数のセグメントに分割する。
いくつかの実験により、TMacは他のSOTAモデルよりも性能が優れていることを示した。
- 参考スコア(独自算出の注目度): 60.038979555455775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audiovisual data is everywhere in this digital age, which raises higher
requirements for the deep learning models developed on them. To well handle the
information of the multi-modal data is the key to a better audiovisual modal.
We observe that these audiovisual data naturally have temporal attributes, such
as the time information for each frame in the video. More concretely, such data
is inherently multi-modal according to both audio and visual cues, which
proceed in a strict chronological order. It indicates that temporal information
is important in multi-modal acoustic event modeling for both intra- and
inter-modal. However, existing methods deal with each modal feature
independently and simply fuse them together, which neglects the mining of
temporal relation and thus leads to sub-optimal performance. With this
motivation, we propose a Temporal Multi-modal graph learning method for
Acoustic event Classification, called TMac, by modeling such temporal
information via graph learning techniques. In particular, we construct a
temporal graph for each acoustic event, dividing its audio data and video data
into multiple segments. Each segment can be considered as a node, and the
temporal relationships between nodes can be considered as timestamps on their
edges. In this case, we can smoothly capture the dynamic information in
intra-modal and inter-modal. Several experiments are conducted to demonstrate
TMac outperforms other SOTA models in performance. Our code is available at
https://github.com/MGitHubL/TMac.
- Abstract(参考訳): オーディオ視覚データは、このデジタル時代の至る所にあり、それによって、それら上で開発されたディープラーニングモデルに対するより高い要求がもたらされる。
マルチモーダルデータの情報を適切に扱うことは、より良いオーディオビジュアルモーダルの鍵となる。
映像中の各フレームの時間情報など,これらの映像データには時間特性が自然に存在することが観察された。
より具体的には、このようなデータは音声と視覚の両方で本質的にマルチモーダルであり、厳密な時系列順に進行する。
モーダル内およびモーダル間両方のマルチモーダル音響イベントモデリングにおいて,時間的情報の重要性が示唆された。
しかし、既存の手法ではそれぞれのモーダル特徴を独立に処理し、単にそれらを融合させるだけで、時間的関係のマイニングを怠り、結果として副最適性能に繋がる。
そこで本研究では,tmacと呼ばれる音響イベント分類のための時間的マルチモーダルグラフ学習手法を提案する。
特に,音響イベント毎に時間グラフを構築し,音声データと映像データを複数のセグメントに分割する。
各セグメントはノードと見なすことができ、ノード間の時間的関係はエッジ上のタイムスタンプと見なすことができる。
この場合、モーダル内およびモーダル間における動的情報をスムーズに捉えることができる。
いくつかの実験により、TMacは他のSOTAモデルよりも性能が優れていることを示した。
私たちのコードはhttps://github.com/mgithubl/tmacで利用可能です。
関連論文リスト
- OMCAT: Omni Context Aware Transformer [27.674943980306423]
OCTAVは、オーディオとビデオ間のイベント遷移をキャプチャするために設計された、新しいデータセットである。
OMCATはRoTEを活用する強力なモデルであり、時間依存タスクにおける時間的グラウンドリングと計算効率を向上させる。
本稿では,AVQA(Audio-Visual Question Answering)タスクとOCTAVベンチマークを用いて,時間的推論とモーダルアライメントの大幅な向上を示す。
論文 参考訳(メタデータ) (2024-10-15T23:16:28Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-02T18:29:07Z) - Multi-level Attention Fusion Network for Audio-visual Event Recognition [6.767885381740951]
イベント分類は本質的にシーケンシャルでマルチモーダルである。
ディープニューラルモデルは、ビデオの最も関連性の高い時間ウィンドウと/またはモダリティに動的に集中する必要がある。
イベント認識のための視覚情報と音声情報を動的に融合するアーキテクチャであるマルチレベル注意融合ネットワーク(MAFnet)を提案する。
論文 参考訳(メタデータ) (2021-06-12T10:24:52Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。