論文の概要: AIx Speed: Playback Speed Optimization Using Listening Comprehension of
Speech Recognition Models
- arxiv url: http://arxiv.org/abs/2403.02938v1
- Date: Tue, 5 Mar 2024 13:08:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 14:48:06.227173
- Title: AIx Speed: Playback Speed Optimization Using Listening Comprehension of
Speech Recognition Models
- Title(参考訳): AIxスピード:音声認識モデルの聴取理解を用いた再生速度最適化
- Authors: Kazuki Kawamura and Jun Rekimoto
- Abstract要約: 本研究では,音声の可聴性を確保しつつ,音素単位の再生速度を自動的に調整するシステムを提案する。
このシステムは、音声認識スコアを、人間が特定の単位の音声を聴くことができるかのプロキシとして使用し、音声再生速度を人間が聴くことができる程度に最大化する。
- 参考スコア(独自算出の注目度): 27.901311447875948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since humans can listen to audio and watch videos at faster speeds than
actually observed, we often listen to or watch these pieces of content at
higher playback speeds to increase the time efficiency of content
comprehension. To further utilize this capability, systems that automatically
adjust the playback speed according to the user's condition and the type of
content to assist in more efficient comprehension of time-series content have
been developed. However, there is still room for these systems to further
extend human speed-listening ability by generating speech with playback speed
optimized for even finer time units and providing it to humans. In this study,
we determine whether humans can hear the optimized speech and propose a system
that automatically adjusts playback speed at units as small as phonemes while
ensuring speech intelligibility. The system uses the speech recognizer score as
a proxy for how well a human can hear a certain unit of speech and maximizes
the speech playback speed to the extent that a human can hear. This method can
be used to produce fast but intelligible speech. In the evaluation experiment,
we compared the speech played back at a constant fast speed and the flexibly
speed-up speech generated by the proposed method in a blind test and confirmed
that the proposed method produced speech that was easier to listen to.
- Abstract(参考訳): 人間は、実際に観察したよりも高速でオーディオやビデオの再生を聴くことができるので、コンテンツ理解の時間効率を高めるために、これらのコンテンツを高い再生速度で聴くことも視聴することもよくあります。
この機能をさらに活用するために、ユーザの状態やコンテンツの種類に応じて再生速度を自動的に調整し、より効率的な時系列コンテンツの理解を支援するシステムを開発した。
しかし、これらのシステムは、より微細な時間単位に最適化された再生速度で音声を生成し、人間に提供することにより、人間のスピードライジング能力をさらに拡張する余地がある。
本研究では,人間が最適化された音声を聴けるかどうかを判断し,音声の可聴性を確保しつつ,音素の単位の再生速度を自動的に調整するシステムを提案する。
このシステムでは、音声認識スコアを、人間が特定の単位の音声を聴くことができるかの指標として使用し、音声再生速度を人間が聴く程度に最大化する。
この手法は、高速だが理解不能な音声を生成するのに利用できる。
評価実験では,提案手法によって生成された音声を,一定の速度で再生する音声と柔軟に高速化する音声をブラインドテストで比較し,提案手法が聞きやすい音声を生成することを確認した。
関連論文リスト
- FlashSpeech: Efficient Zero-Shot Speech Synthesis [37.883762387219676]
FlashSpeechは、大規模なゼロショット音声合成システムであり、従来の作業と比べて約5%の推論時間を持つ。
我々は,FlashSpeechが他のゼロショット音声合成システムよりも約20倍高速でありながら,音声品質と類似性において同等の性能を維持していることを示す。
論文 参考訳(メタデータ) (2024-04-23T02:57:46Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Optimization of a Real-Time Wavelet-Based Algorithm for Improving Speech
Intelligibility [1.0554048699217666]
離散時間音声信号は、マルチレベル離散ウェーブレット変換を介して周波数サブバンドに分割される。
信号エネルギーを一定に保ちながらサブバンドゲインを調整する。
種々の背景干渉および模擬聴力損失条件下での音声の可聴性を向上させる。
論文 参考訳(メタデータ) (2022-02-05T13:03:57Z) - Text-to-speech for the hearing impaired [0.0]
テキスト音声(TTS)システムは、受信端で補正するのではなく、音源の聴覚損失を補うことができる。
本研究では,高分解能時間,周波数,レベルにおいて,音質を正常な知覚に復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:52:03Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - FastSpeech 2: Fast and High-Quality End-to-End Text to Speech [189.05831125931053]
FastSpeechのような非自己回帰テキスト・トゥ・スピーチ(TTS)モデルは、同等の品質の以前の自己回帰モデルよりもはるかに高速に音声を合成することができる。
FastSpeechには,(1)教師-学生蒸留パイプラインが複雑で時間を要すること,(2)教師モデルから抽出した期間が十分正確でないこと,(2)教師モデルから抽出したターゲットメル-スペクトログラムが情報損失に悩まされていること,など,いくつかの欠点がある。
我々は,教師の簡易な出力ではなく,接地目標でモデルを直接訓練するFastSpeech 2を提案する。
論文 参考訳(メタデータ) (2020-06-08T13:05:40Z) - Vocoder-Based Speech Synthesis from Silent Videos [28.94460283719776]
深層学習を用いた話し手のサイレントビデオから音声を合成する方法を提案する。
システムは生のビデオフレームから音響特徴へのマッピング関数を学習し、ボコーダ合成アルゴリズムを用いて音声を再構成する。
論文 参考訳(メタデータ) (2020-04-06T10:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。