論文の概要: A Multimodal Canonical-Correlated Graph Neural Network for
Energy-Efficient Speech Enhancement
- arxiv url: http://arxiv.org/abs/2202.04528v1
- Date: Wed, 9 Feb 2022 15:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 17:29:47.846043
- Title: A Multimodal Canonical-Correlated Graph Neural Network for
Energy-Efficient Speech Enhancement
- Title(参考訳): エネルギー効率の良い音声強調のための多モードカノニカル関連グラフニューラルネットワーク
- Authors: Leandro Aparecido Passos, Jo\~ao Paulo Papa, Amir Hussain, Ahsan Adeel
- Abstract要約: 本稿では,エネルギー効率の高いAV音声強調のための新しいマルチモーダル自己教師型アーキテクチャを提案する。
グラフニューラルネットワークと標準相関解析(CCA-GNN)を統合する
ベンチマークのChiME3データセットを用いて行った実験により、提案したフレームベースのAV CCA-GNNは、時間的文脈におけるより良い特徴学習を強化していることがわかった。
- 参考スコア(独自算出の注目度): 4.395837214164745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a novel multimodal self-supervised architecture for
energy-efficient AV speech enhancement by integrating graph neural networks
with canonical correlation analysis (CCA-GNN). This builds on a
state-of-the-art CCA-GNN that aims to learn representative embeddings by
maximizing the correlation between pairs of augmented views of the same input
while decorrelating disconnected features. The key idea of the conventional
CCA-GNN involves discarding augmentation-variant information and preserving
augmentation-invariant information whilst preventing capturing of redundant
information. Our proposed AV CCA-GNN model is designed to deal with the
challenging multimodal representation learning context. Specifically, our model
improves contextual AV speech processing by maximizing canonical correlation
from augmented views of the same channel, as well as canonical correlation from
audio and visual embeddings. In addition, we propose a positional encoding of
the nodes that considers a prior-frame sequence distance instead of a
feature-space representation while computing the node's nearest neighbors. This
serves to introduce temporal information in the embeddings through the
neighborhood's connectivity. Experiments conducted with the benchmark ChiME3
dataset show that our proposed prior frame-based AV CCA-GNN reinforces better
feature learning in the temporal context, leading to more energy-efficient
speech reconstruction compared to state-of-the-art CCA-GNN and multi-layer
perceptron models. The results demonstrate the potential of our proposed
approach for exploitation in future assistive technology and energy-efficient
multimodal devices.
- Abstract(参考訳): 本稿では、グラフニューラルネットワークと標準相関解析(CCA-GNN)を統合することで、エネルギー効率の高いAV音声強調のための新しいマルチモーダル自己教師型アーキテクチャを提案する。
これは最先端のCCA-GNNの上に構築されており、同じ入力の強化ビューのペア間の相関を最大化し、非連結な特徴をデコレーションしながら代表埋め込みを学習することを目的としている。
従来のCCA-GNNの鍵となる考え方は、冗長な情報の取得を防止しつつ、拡張不変情報を破棄し、拡張不変情報を保存することである。
提案するAV CCA-GNNモデルは,マルチモーダル表現学習の難しさに対処するために設計されている。
具体的には,同一チャンネルの拡張ビューからの正準相関を最大化し,音声および視覚埋め込みによる正準相関を最大化することにより,文脈的なav音声処理を改善する。
さらに,ノードの近接近傍を計算しながら,特徴空間表現の代わりに先行フレーム列距離を考慮したノードの位置符号化を提案する。
これは、近隣の接続を通じて埋め込みに時間的情報を導入するのに役立つ。
ChiME3データセットを用いて行った実験により、提案したフレームベースのAV CCA-GNNは、時間的文脈における優れた特徴学習を強化し、最先端のCCA-GNNや多層パーセプトロンモデルと比較して、よりエネルギー効率の良い音声再構成を実現することが示された。
提案手法が将来の補助技術やエネルギー効率の高いマルチモーダルデバイスに活用される可能性を示した。
関連論文リスト
- Reliable Explainability of Deep Learning Spatial-Spectral Classifiers for Improved Semantic Segmentation in Autonomous Driving [1.474723404975345]
ハイパースペクトル画像(HSI)とディープニューラルネットワーク(DNN)は、インテリジェントビジョンシステムの精度を高めることができる。
このような安全クリティカルシステムの研究を進めるためには、複雑なDNNの出力に対するスペクトル情報の正確な寄与を決定する必要がある。
入力特徴と予測の関係をよりよく把握するために、関連するDNN層からのアクティベーションと重みによるデータを活用する方法を提案する。
論文 参考訳(メタデータ) (2025-02-20T10:11:27Z) - LHGNN: Local-Higher Order Graph Neural Networks For Audio Classification and Tagging [23.464493621300242]
この研究は、特徴理解を強化するグラフベースモデルであるLocal-Higher Order Graph Neural Network (LHGNN)を紹介する。
公開されている3つのオーディオデータセットに対するモデルの評価は、Transformerベースのモデルをすべてのベンチマークで上回っていることを示している。
論文 参考訳(メタデータ) (2025-01-07T01:45:39Z) - Canonical Correlation Guided Deep Neural Network [14.188285111418516]
深層ニューラルネットワーク(CCDNN)により実現可能な標準相関学習フレームワークを提案する。
提案手法では、最適化の定式化は相関を最大化するために制限されず、代わりに正規相関を制約として行う。
相関による冗長性を低減するために、冗長性フィルタを設計する。
論文 参考訳(メタデータ) (2024-09-28T16:08:44Z) - Enhancing Graph Contrastive Learning with Reliable and Informative Augmentation for Recommendation [84.45144851024257]
離散コードによるより強力な協調情報を用いて、コントラスト的なビューを構築することにより、グラフのコントラスト学習を強化することを目的とした、新しいフレームワークを提案する。
中心となる考え方は、ユーザとアイテムを協調情報に富んだ離散コードにマッピングし、信頼性と情報に富んだコントラッシブなビュー生成を可能にすることである。
論文 参考訳(メタデータ) (2024-09-09T14:04:17Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - Canonical Cortical Graph Neural Networks and its Application for Speech
Enhancement in Future Audio-Visual Hearing Aids [0.726437825413781]
本稿では, 層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせた, より生物学的に妥当な自己教師型機械学習手法を提案する。
この手法は、よりクリーンなオーディオ再構成とエネルギー効率の両方を考慮した最近の最先端の結果より優れており、スモーザーでスモーザーなニューロンの発火速度分布によって説明されている。
論文 参考訳(メタデータ) (2022-06-06T15:20:07Z) - Graph-based Algorithm Unfolding for Energy-aware Power Allocation in
Wireless Networks [27.600081147252155]
我々は,無線通信網におけるエネルギー効率を最大化する新しいグラフ要約フレームワークを開発した。
無線ネットワークデータのモデルに望ましい特性である置換訓練について述べる。
結果は、異なるネットワークトポロジにまたがる一般化可能性を示している。
論文 参考訳(メタデータ) (2022-01-27T20:23:24Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。