論文の概要: A Multimodal Canonical-Correlated Graph Neural Network for
Energy-Efficient Speech Enhancement
- arxiv url: http://arxiv.org/abs/2202.04528v1
- Date: Wed, 9 Feb 2022 15:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 17:29:47.846043
- Title: A Multimodal Canonical-Correlated Graph Neural Network for
Energy-Efficient Speech Enhancement
- Title(参考訳): エネルギー効率の良い音声強調のための多モードカノニカル関連グラフニューラルネットワーク
- Authors: Leandro Aparecido Passos, Jo\~ao Paulo Papa, Amir Hussain, Ahsan Adeel
- Abstract要約: 本稿では,エネルギー効率の高いAV音声強調のための新しいマルチモーダル自己教師型アーキテクチャを提案する。
グラフニューラルネットワークと標準相関解析(CCA-GNN)を統合する
ベンチマークのChiME3データセットを用いて行った実験により、提案したフレームベースのAV CCA-GNNは、時間的文脈におけるより良い特徴学習を強化していることがわかった。
- 参考スコア(独自算出の注目度): 4.395837214164745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a novel multimodal self-supervised architecture for
energy-efficient AV speech enhancement by integrating graph neural networks
with canonical correlation analysis (CCA-GNN). This builds on a
state-of-the-art CCA-GNN that aims to learn representative embeddings by
maximizing the correlation between pairs of augmented views of the same input
while decorrelating disconnected features. The key idea of the conventional
CCA-GNN involves discarding augmentation-variant information and preserving
augmentation-invariant information whilst preventing capturing of redundant
information. Our proposed AV CCA-GNN model is designed to deal with the
challenging multimodal representation learning context. Specifically, our model
improves contextual AV speech processing by maximizing canonical correlation
from augmented views of the same channel, as well as canonical correlation from
audio and visual embeddings. In addition, we propose a positional encoding of
the nodes that considers a prior-frame sequence distance instead of a
feature-space representation while computing the node's nearest neighbors. This
serves to introduce temporal information in the embeddings through the
neighborhood's connectivity. Experiments conducted with the benchmark ChiME3
dataset show that our proposed prior frame-based AV CCA-GNN reinforces better
feature learning in the temporal context, leading to more energy-efficient
speech reconstruction compared to state-of-the-art CCA-GNN and multi-layer
perceptron models. The results demonstrate the potential of our proposed
approach for exploitation in future assistive technology and energy-efficient
multimodal devices.
- Abstract(参考訳): 本稿では、グラフニューラルネットワークと標準相関解析(CCA-GNN)を統合することで、エネルギー効率の高いAV音声強調のための新しいマルチモーダル自己教師型アーキテクチャを提案する。
これは最先端のCCA-GNNの上に構築されており、同じ入力の強化ビューのペア間の相関を最大化し、非連結な特徴をデコレーションしながら代表埋め込みを学習することを目的としている。
従来のCCA-GNNの鍵となる考え方は、冗長な情報の取得を防止しつつ、拡張不変情報を破棄し、拡張不変情報を保存することである。
提案するAV CCA-GNNモデルは,マルチモーダル表現学習の難しさに対処するために設計されている。
具体的には,同一チャンネルの拡張ビューからの正準相関を最大化し,音声および視覚埋め込みによる正準相関を最大化することにより,文脈的なav音声処理を改善する。
さらに,ノードの近接近傍を計算しながら,特徴空間表現の代わりに先行フレーム列距離を考慮したノードの位置符号化を提案する。
これは、近隣の接続を通じて埋め込みに時間的情報を導入するのに役立つ。
ChiME3データセットを用いて行った実験により、提案したフレームベースのAV CCA-GNNは、時間的文脈における優れた特徴学習を強化し、最先端のCCA-GNNや多層パーセプトロンモデルと比較して、よりエネルギー効率の良い音声再構成を実現することが示された。
提案手法が将来の補助技術やエネルギー効率の高いマルチモーダルデバイスに活用される可能性を示した。
関連論文リスト
- Canonical Correlation Guided Deep Neural Network [14.188285111418516]
深層ニューラルネットワーク(CCDNN)により実現可能な標準相関学習フレームワークを提案する。
提案手法では、最適化の定式化は相関を最大化するために制限されず、代わりに正規相関を制約として行う。
相関による冗長性を低減するために、冗長性フィルタを設計する。
論文 参考訳(メタデータ) (2024-09-28T16:08:44Z) - Enhancing Graph Contrastive Learning with Reliable and Informative Augmentation for Recommendation [84.45144851024257]
CoGCLは、離散コードを通じてより強力な協調情報でコントラスト的なビューを構築することで、グラフのコントラスト学習を強化することを目的としている。
ユーザとアイテムの表現を離散コードに定量化するために,マルチレベルベクトル量化器をエンドツーエンドで導入する。
近傍構造に対しては,離散符号を仮想隣人として扱うことにより,仮想隣人拡張を提案する。
意味的関連性については、共有された離散コードと相互作用ターゲットに基づいて類似のユーザ/イテムを識別し、意味的関連性のあるビューを生成する。
論文 参考訳(メタデータ) (2024-09-09T14:04:17Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - An Efficient Speech Separation Network Based on Recurrent Fusion Dilated
Convolution and Channel Attention [0.2538209532048866]
本稿では,拡張畳み込み,マルチスケール融合(MSF),チャネルアテンションを組み合わせた効率的な音声分離ニューラルネットワーク ARFDCN を提案する。
実験結果から,本モデルでは性能と計算効率のバランスが良好であることが示唆された。
論文 参考訳(メタデータ) (2023-06-09T13:30:27Z) - Dynamic Kernels and Channel Attention with Multi-Layer Embedding
Aggregation for Speaker Verification [28.833851817220616]
本稿では,畳み込みニューラルネットワークにおける注意に基づく動的カーネルを用いたモデル分解能の向上手法を提案する。
提案した動的畳み込みモデルはVoxCeleb1テストセットで1.62%のEERと0.18のミニDCFを達成し、ECAPA-TDNNと比較して17%改善した。
論文 参考訳(メタデータ) (2022-11-03T17:13:28Z) - Canonical Cortical Graph Neural Networks and its Application for Speech
Enhancement in Future Audio-Visual Hearing Aids [0.726437825413781]
本稿では, 層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせた, より生物学的に妥当な自己教師型機械学習手法を提案する。
この手法は、よりクリーンなオーディオ再構成とエネルギー効率の両方を考慮した最近の最先端の結果より優れており、スモーザーでスモーザーなニューロンの発火速度分布によって説明されている。
論文 参考訳(メタデータ) (2022-06-06T15:20:07Z) - Graph-based Algorithm Unfolding for Energy-aware Power Allocation in
Wireless Networks [27.600081147252155]
我々は,無線通信網におけるエネルギー効率を最大化する新しいグラフ要約フレームワークを開発した。
無線ネットワークデータのモデルに望ましい特性である置換訓練について述べる。
結果は、異なるネットワークトポロジにまたがる一般化可能性を示している。
論文 参考訳(メタデータ) (2022-01-27T20:23:24Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。