論文の概要: An End-to-End Neural Network for Image-to-Audio Transformation
- arxiv url: http://arxiv.org/abs/2303.06078v1
- Date: Fri, 10 Mar 2023 16:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 14:18:34.330988
- Title: An End-to-End Neural Network for Image-to-Audio Transformation
- Title(参考訳): 画像-音声変換のためのエンドツーエンドニューラルネットワーク
- Authors: Liu Chen, Michael Deisher, Munir Georges
- Abstract要約: 本稿では、低リソースのパーソナルコンピューティングデバイス上での表示コンテンツの小さな部分のオーディオレンダリングのためのエンド・ツー・エンド(E2E)ニューラルアーキテクチャについて述べる。
ハードウェアレベルでの視覚障害者や視覚障害者のアクセシビリティの問題に対処することを目的としている。
- 参考スコア(独自算出の注目度): 7.2456414464953065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes an end-to-end (E2E) neural architecture for the audio
rendering of small portions of display content on low resource personal
computing devices. It is intended to address the problem of accessibility for
vision-impaired or vision-distracted users at the hardware level. Neural
image-to-text (ITT) and text-to-speech (TTS) approaches are reviewed and a new
technique is introduced to efficiently integrate them in a way that is both
efficient and back-propagate-able, leading to a non-autoregressive E2E
image-to-speech (ITS) neural network that is efficient and trainable.
Experimental results are presented showing that, compared with the non-E2E
approach, the proposed E2E system is 29% faster and uses 19% fewer parameters
with a 2% reduction in phone accuracy. A future direction to address accuracy
is presented.
- Abstract(参考訳): 本稿では、低リソースのパーソナルコンピューティングデバイス上での表示コンテンツの小さな部分のオーディオレンダリングのためのエンドツーエンド(E2E)ニューラルアーキテクチャについて述べる。
ハードウェアレベルで視覚障害者または視覚障害者のアクセシビリティの問題に対処することを目的としている。
ニューラルネットワーク(itt)とtext-to-speech(tts)のアプローチをレビューし、効率的かつバックプロパゲータブルな方法でそれらを効率的に統合する新しい手法を導入し、効率的かつ訓練可能な非自己回帰型e2e image-to-speech(its)ニューラルネットワークへと導く。
実験の結果,非E2E方式と比較して,提案方式は29%高速化され,パラメータが19%減少し,通話精度が2%低下した。
正確性に対処するための今後の方向を示す。
関連論文リスト
- Compression of end-to-end non-autoregressive image-to-speech system for
low-resourced devices [1.7617987342944703]
低リソースデバイス上での表示内容の小さなセグメントから音声を生成するための,効率的なエンドツーエンドニューラルアーキテクチャを開発した。
人的および自動評価の結果から,本手法は性能の低下を最小限に抑え,推論時間を22%高速化できることがわかった。
論文 参考訳(メタデータ) (2023-11-30T20:13:10Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Illumination and Temperature-Aware Multispectral Networks for
Edge-Computing-Enabled Pedestrian Detection [10.454696553567809]
本研究は,高精度かつ効率的な歩行者検出のための軽量照明・温度対応マルチスペクトルネットワーク(IT-MN)を提案する。
提案アルゴリズムは、車載カメラで収集した公開データセットを用いて、選択した最先端アルゴリズムと比較して評価する。
提案アルゴリズムは,GPU上の画像ペアあたり14.19%,0.03秒の低ミス率と推論時間を実現する。
論文 参考訳(メタデータ) (2021-12-09T17:27:23Z) - Exploring Machine Speech Chain for Domain Adaptation and Few-Shot
Speaker Adaptation [11.79922306758482]
Machine Speech Chainは、エンドツーエンドの自動音声認識(ASR)とテキスト音声(TTS)を1つのサークルに統合し、共同トレーニングを行う。
ニューラルTTSモデルとE2E ASRモデルの両方のドメイン適応を行うために,音声チェーンにおけるTSS->ASRパイプラインを検討する。
論文 参考訳(メタデータ) (2021-04-08T14:52:37Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Resource-Efficient Speech Mask Estimation for Multi-Channel Speech
Enhancement [15.361841669377776]
ディープニューラルネットワーク(DNN)に基づくマルチチャンネル音声強調のための資源効率の高い手法を提案する。
特に、低精度DNNを用いて、ノイズの多いマルチチャネルマイクロホン観測から音声マスクを推定する。
2重みの極端な場合と精度の低下により、実行時間とメモリフットプリントの大幅な削減が可能となる。
論文 参考訳(メタデータ) (2020-07-22T14:58:29Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。