論文の概要: Visually-aware Acoustic Event Detection using Heterogeneous Graphs
- arxiv url: http://arxiv.org/abs/2207.07935v1
- Date: Sat, 16 Jul 2022 13:09:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 19:12:18.612324
- Title: Visually-aware Acoustic Event Detection using Heterogeneous Graphs
- Title(参考訳): 異種グラフを用いた視覚認識型音響イベント検出
- Authors: Amir Shirian, Krishna Somandepalli, Victor Sanchez, Tanaya Guha
- Abstract要約: 聴覚イベントの知覚は、本質的に音声と視覚の両方に依存するマルチモーダルである。
モーダル性の間の空間的および時間的関係を捉えるために異種グラフを用いる。
空間スケールと時間スケールの両方において,モダリティ内およびモダリティ間の関係を効率的にモデル化する。
- 参考スコア(独自算出の注目度): 39.90352230010103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perception of auditory events is inherently multimodal relying on both audio
and visual cues. A large number of existing multimodal approaches process each
modality using modality-specific models and then fuse the embeddings to encode
the joint information. In contrast, we employ heterogeneous graphs to
explicitly capture the spatial and temporal relationships between the
modalities and represent detailed information about the underlying signal.
Using heterogeneous graph approaches to address the task of visually-aware
acoustic event classification, which serves as a compact, efficient and
scalable way to represent data in the form of graphs. Through heterogeneous
graphs, we show efficiently modelling of intra- and inter-modality
relationships both at spatial and temporal scales. Our model can easily be
adapted to different scales of events through relevant hyperparameters.
Experiments on AudioSet, a large benchmark, shows that our model achieves
state-of-the-art performance.
- Abstract(参考訳): 聴覚イベントの知覚は、本質的に音声と視覚の両方に依存するマルチモーダルである。
既存の多数のマルチモーダルアプローチでは、各モダリティをモダリティ固有のモデルを使って処理し、埋め込みを融合してジョイント情報をエンコードする。
対照的に,モダリティ間の空間的・時間的関係を明示的に把握し,基礎となる信号に関する詳細な情報を表現するために,異種グラフを用いる。
ヘテロジニアスグラフのアプローチは、グラフの形式でデータを表現するためのコンパクトで効率的でスケーラブルな方法として機能する、視覚的に認識された音響イベント分類のタスクに対処する。
ヘテロジニアスグラフを通して,空間スケールと時間スケールの両方において,モダリティ内およびモダリティ間関係の効率的なモデリングを示す。
我々のモデルは、関連するハイパーパラメータを通して、異なるスケールのイベントに容易に適応できる。
大規模なベンチマークであるAudioSetの実験は、我々のモデルが最先端のパフォーマンスを達成することを示す。
関連論文リスト
- Graph-Dictionary Signal Model for Sparse Representations of Multivariate Data [49.77103348208835]
グラフの有限集合がラプラシアンの重み付き和を通してデータ分布の関係を特徴付けるグラフ辞書信号モデルを定義する。
本稿では,観測データからグラフ辞書表現を推論するフレームワークを提案する。
我々は,脳活動データに基づく運動画像復号作業におけるグラフ辞書表現を利用して,従来の手法よりも想像的な動きをよりよく分類する。
論文 参考訳(メタデータ) (2024-11-08T17:40:43Z) - TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - Unified and Dynamic Graph for Temporal Character Grouping in Long Videos [31.192044026127032]
ビデオ時間的キャラクタグループ化は、ビデオ内の主要なキャラクタの出現モーメントを、そのアイデンティティに応じて特定する。
最近の研究は、教師なしクラスタリングからグラフベースのクラスタリングへと進化してきた。
時間的文字グループ化のための統一動的グラフ(UniDG)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-27T13:22:55Z) - Heterogeneous Graph Learning for Acoustic Event Classification [22.526665796655205]
オーディオヴィジュアルデータのためのグラフは手作業で作成され、これは困難で準最適である。
クロスモーダルエッジを学習する新しいモデルであるヘテロジニアスグラフクロスモーダルネットワーク(HGCN)を開発した。
提案モデルではパラメトリックな構成により,様々な空間的・時間的スケールに対応でき,学習可能なクロスモーダルエッジは関連ノードを効果的に接続することができる。
論文 参考訳(メタデータ) (2023-03-05T13:06:53Z) - DyTed: Disentangled Representation Learning for Discrete-time Dynamic
Graph [59.583555454424]
離散時間動的グラフ、すなわちDyTedのための新しいディペンタングル表現学習フレームワークを提案する。
本研究では,時間不変の表現と時間変動の表現を効果的に識別する構造的コントラスト学習とともに,時間的クリップのコントラスト学習タスクを特別に設計する。
論文 参考訳(メタデータ) (2022-10-19T14:34:12Z) - Representing Videos as Discriminative Sub-graphs for Action Recognition [165.54738402505194]
ビデオ中の各アクションの識別パターンを表現およびエンコードするためのサブグラフの新たな設計を提案する。
時空グラフとクラスタを各スケールでコンパクトなサブグラフに新たに構築するMUlti-scale Sub-Earn Ling (MUSLE) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:25Z) - Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-02T18:29:07Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Graph Pattern Loss based Diversified Attention Network for Cross-Modal
Retrieval [10.420129873840578]
クロスモーダル検索は、画像、ビデオ、テキスト、オーディオなどのマルチメディアデータを組み合わせることで、柔軟な検索体験を実現することを目的としている。
教師なしアプローチのコアの1つは、高価なラベルを必要とすることなく、異なるオブジェクト表現間の相関関係を掘り下げて、満足度の高い検索性能を完成させることである。
教師なしクロスモーダル検索のためのグラフパターン損失に基づく分散注意ネットワーク(GPLDAN)を提案する。
論文 参考訳(メタデータ) (2021-06-25T10:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。