論文の概要: A Multimodal Canonical-Correlated Graph Neural Network for
Energy-Efficient Speech Enhancement
- arxiv url: http://arxiv.org/abs/2202.04528v1
- Date: Wed, 9 Feb 2022 15:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 17:29:47.846043
- Title: A Multimodal Canonical-Correlated Graph Neural Network for
Energy-Efficient Speech Enhancement
- Title(参考訳): エネルギー効率の良い音声強調のための多モードカノニカル関連グラフニューラルネットワーク
- Authors: Leandro Aparecido Passos, Jo\~ao Paulo Papa, Amir Hussain, Ahsan Adeel
- Abstract要約: 本稿では,エネルギー効率の高いAV音声強調のための新しいマルチモーダル自己教師型アーキテクチャを提案する。
グラフニューラルネットワークと標準相関解析(CCA-GNN)を統合する
ベンチマークのChiME3データセットを用いて行った実験により、提案したフレームベースのAV CCA-GNNは、時間的文脈におけるより良い特徴学習を強化していることがわかった。
- 参考スコア(独自算出の注目度): 4.395837214164745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a novel multimodal self-supervised architecture for
energy-efficient AV speech enhancement by integrating graph neural networks
with canonical correlation analysis (CCA-GNN). This builds on a
state-of-the-art CCA-GNN that aims to learn representative embeddings by
maximizing the correlation between pairs of augmented views of the same input
while decorrelating disconnected features. The key idea of the conventional
CCA-GNN involves discarding augmentation-variant information and preserving
augmentation-invariant information whilst preventing capturing of redundant
information. Our proposed AV CCA-GNN model is designed to deal with the
challenging multimodal representation learning context. Specifically, our model
improves contextual AV speech processing by maximizing canonical correlation
from augmented views of the same channel, as well as canonical correlation from
audio and visual embeddings. In addition, we propose a positional encoding of
the nodes that considers a prior-frame sequence distance instead of a
feature-space representation while computing the node's nearest neighbors. This
serves to introduce temporal information in the embeddings through the
neighborhood's connectivity. Experiments conducted with the benchmark ChiME3
dataset show that our proposed prior frame-based AV CCA-GNN reinforces better
feature learning in the temporal context, leading to more energy-efficient
speech reconstruction compared to state-of-the-art CCA-GNN and multi-layer
perceptron models. The results demonstrate the potential of our proposed
approach for exploitation in future assistive technology and energy-efficient
multimodal devices.
- Abstract(参考訳): 本稿では、グラフニューラルネットワークと標準相関解析(CCA-GNN)を統合することで、エネルギー効率の高いAV音声強調のための新しいマルチモーダル自己教師型アーキテクチャを提案する。
これは最先端のCCA-GNNの上に構築されており、同じ入力の強化ビューのペア間の相関を最大化し、非連結な特徴をデコレーションしながら代表埋め込みを学習することを目的としている。
従来のCCA-GNNの鍵となる考え方は、冗長な情報の取得を防止しつつ、拡張不変情報を破棄し、拡張不変情報を保存することである。
提案するAV CCA-GNNモデルは,マルチモーダル表現学習の難しさに対処するために設計されている。
具体的には,同一チャンネルの拡張ビューからの正準相関を最大化し,音声および視覚埋め込みによる正準相関を最大化することにより,文脈的なav音声処理を改善する。
さらに,ノードの近接近傍を計算しながら,特徴空間表現の代わりに先行フレーム列距離を考慮したノードの位置符号化を提案する。
これは、近隣の接続を通じて埋め込みに時間的情報を導入するのに役立つ。
ChiME3データセットを用いて行った実験により、提案したフレームベースのAV CCA-GNNは、時間的文脈における優れた特徴学習を強化し、最先端のCCA-GNNや多層パーセプトロンモデルと比較して、よりエネルギー効率の良い音声再構成を実現することが示された。
提案手法が将来の補助技術やエネルギー効率の高いマルチモーダルデバイスに活用される可能性を示した。
関連論文リスト
- Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - An Efficient Speech Separation Network Based on Recurrent Fusion Dilated
Convolution and Channel Attention [0.2538209532048866]
本稿では,拡張畳み込み,マルチスケール融合(MSF),チャネルアテンションを組み合わせた効率的な音声分離ニューラルネットワーク ARFDCN を提案する。
実験結果から,本モデルでは性能と計算効率のバランスが良好であることが示唆された。
論文 参考訳(メタデータ) (2023-06-09T13:30:27Z) - Learning Cooperative Beamforming with Edge-Update Empowered Graph Neural
Networks [29.23937571816269]
グラフエッジ上での協調ビームフォーミングを学習するためのエッジグラフニューラルネットワーク(Edge-GNN)を提案する。
提案したEdge-GNNは、最先端の手法よりも計算時間をはるかに短くして、より高い和率を達成する。
論文 参考訳(メタデータ) (2022-11-23T02:05:06Z) - Dynamic Kernels and Channel Attention with Multi-Layer Embedding
Aggregation for Speaker Verification [28.833851817220616]
本稿では,畳み込みニューラルネットワークにおける注意に基づく動的カーネルを用いたモデル分解能の向上手法を提案する。
提案した動的畳み込みモデルはVoxCeleb1テストセットで1.62%のEERと0.18のミニDCFを達成し、ECAPA-TDNNと比較して17%改善した。
論文 参考訳(メタデータ) (2022-11-03T17:13:28Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Canonical Cortical Graph Neural Networks and its Application for Speech
Enhancement in Future Audio-Visual Hearing Aids [0.726437825413781]
本稿では, 層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせた, より生物学的に妥当な自己教師型機械学習手法を提案する。
この手法は、よりクリーンなオーディオ再構成とエネルギー効率の両方を考慮した最近の最先端の結果より優れており、スモーザーでスモーザーなニューロンの発火速度分布によって説明されている。
論文 参考訳(メタデータ) (2022-06-06T15:20:07Z) - Interpolation-based Correlation Reduction Network for Semi-Supervised
Graph Learning [49.94816548023729]
補間型相関低減ネットワーク(ICRN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
提案手法では,決定境界のマージンを大きくすることで,潜在特徴の識別能力を向上させる。
この2つの設定を組み合わせることで、豊富なラベル付きノードと稀に価値あるラベル付きノードから豊富な監視情報を抽出し、離散表現学習を行う。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Graph-based Algorithm Unfolding for Energy-aware Power Allocation in
Wireless Networks [27.600081147252155]
我々は,無線通信網におけるエネルギー効率を最大化する新しいグラフ要約フレームワークを開発した。
無線ネットワークデータのモデルに望ましい特性である置換訓練について述べる。
結果は、異なるネットワークトポロジにまたがる一般化可能性を示している。
論文 参考訳(メタデータ) (2022-01-27T20:23:24Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Reinforced Neighborhood Selection Guided Multi-Relational Graph Neural
Networks [68.9026534589483]
RioGNNはReinforceed, recursive, flexible neighborhood selection guided multi-relational Graph Neural Network architectureである。
RioGNNは、各関係の個々の重要性の認識により、説明性を高めた差別的なノード埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-04-16T04:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。