Fugu-MT 論文翻訳(概要): AIx Speed: Playback Speed Optimization Using Listening Comprehension of Speech Recognition Models

論文の概要: AIx Speed: Playback Speed Optimization Using Listening Comprehension of Speech Recognition Models

arxiv url: http://arxiv.org/abs/2403.02938v1
Date: Tue, 5 Mar 2024 13:08:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 14:48:06.227173
Title: AIx Speed: Playback Speed Optimization Using Listening Comprehension of Speech Recognition Models
Title（参考訳）: AIxスピード:音声認識モデルの聴取理解を用いた再生速度最適化
Authors: Kazuki Kawamura and Jun Rekimoto
Abstract要約: 本研究では,音声の可聴性を確保しつつ,音素単位の再生速度を自動的に調整するシステムを提案する。このシステムは、音声認識スコアを、人間が特定の単位の音声を聴くことができるかのプロキシとして使用し、音声再生速度を人間が聴くことができる程度に最大化する。
参考スコア（独自算出の注目度）: 27.901311447875948
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Since humans can listen to audio and watch videos at faster speeds than actually observed, we often listen to or watch these pieces of content at higher playback speeds to increase the time efficiency of content comprehension. To further utilize this capability, systems that automatically adjust the playback speed according to the user's condition and the type of content to assist in more efficient comprehension of time-series content have been developed. However, there is still room for these systems to further extend human speed-listening ability by generating speech with playback speed optimized for even finer time units and providing it to humans. In this study, we determine whether humans can hear the optimized speech and propose a system that automatically adjusts playback speed at units as small as phonemes while ensuring speech intelligibility. The system uses the speech recognizer score as a proxy for how well a human can hear a certain unit of speech and maximizes the speech playback speed to the extent that a human can hear. This method can be used to produce fast but intelligible speech. In the evaluation experiment, we compared the speech played back at a constant fast speed and the flexibly speed-up speech generated by the proposed method in a blind test and confirmed that the proposed method produced speech that was easier to listen to.
Abstract（参考訳）: 人間は、実際に観察したよりも高速でオーディオやビデオの再生を聴くことができるので、コンテンツ理解の時間効率を高めるために、これらのコンテンツを高い再生速度で聴くことも視聴することもよくあります。この機能をさらに活用するために、ユーザの状態やコンテンツの種類に応じて再生速度を自動的に調整し、より効率的な時系列コンテンツの理解を支援するシステムを開発した。しかし、これらのシステムは、より微細な時間単位に最適化された再生速度で音声を生成し、人間に提供することにより、人間のスピードライジング能力をさらに拡張する余地がある。本研究では,人間が最適化された音声を聴けるかどうかを判断し,音声の可聴性を確保しつつ,音素の単位の再生速度を自動的に調整するシステムを提案する。このシステムでは、音声認識スコアを、人間が特定の単位の音声を聴くことができるかの指標として使用し、音声再生速度を人間が聴く程度に最大化する。この手法は、高速だが理解不能な音声を生成するのに利用できる。評価実験では,提案手法によって生成された音声を,一定の速度で再生する音声と柔軟に高速化する音声をブラインドテストで比較し,提案手法が聞きやすい音声を生成することを確認した。

関連論文リスト

Application of Audio Fingerprinting Techniques for Real-Time Scalable Speech Retrieval and Speech Clusterization [0.0]
本稿では,音声検索の専門的課題に対処するため,既存の手法を応用するための新たな知見を提供する。単一のリクエストを容易にするのではなく、バッチ処理で迅速かつ正確なオーディオ検索を実現することに注力している。本論文は,実際の音声からテキストへの変換を行なわずに,音声によるクラスタリングを支援する手法について述べる。
論文参考訳（メタデータ） (2024-10-29T09:11:28Z)
Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T20:27:34Z)
IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文参考訳（メタデータ） (2024-10-09T05:04:31Z)
Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文参考訳（メタデータ） (2024-09-30T06:29:58Z)
FlashSpeech: Efficient Zero-Shot Speech Synthesis [37.883762387219676]
FlashSpeechは、大規模なゼロショット音声合成システムであり、従来の作業と比べて約5%の推論時間を持つ。我々は,FlashSpeechが他のゼロショット音声合成システムよりも約20倍高速でありながら,音声品質と類似性において同等の性能を維持していることを示す。
論文参考訳（メタデータ） (2024-04-23T02:57:46Z)
Jointly Optimizing Translations and Speech Timing to Improve Isochrony in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文参考訳（メタデータ） (2023-02-25T04:23:25Z)
LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文参考訳（メタデータ） (2022-11-20T15:27:55Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Optimization of a Real-Time Wavelet-Based Algorithm for Improving Speech Intelligibility [1.0554048699217666]
離散時間音声信号は、マルチレベル離散ウェーブレット変換を介して周波数サブバンドに分割される。信号エネルギーを一定に保ちながらサブバンドゲインを調整する。種々の背景干渉および模擬聴力損失条件下での音声の可聴性を向上させる。
論文参考訳（メタデータ） (2022-02-05T13:03:57Z)
Text-to-speech for the hearing impaired [0.0]
テキスト音声(TTS)システムは、受信端で補正するのではなく、音源の聴覚損失を補うことができる。本研究では,高分解能時間,周波数,レベルにおいて,音質を正常な知覚に復元するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-03T18:52:03Z)
Vocoder-Based Speech Synthesis from Silent Videos [28.94460283719776]
深層学習を用いた話し手のサイレントビデオから音声を合成する方法を提案する。システムは生のビデオフレームから音響特徴へのマッピング関数を学習し、ボコーダ合成アルゴリズムを用いて音声を再構成する。
論文参考訳（メタデータ） (2020-04-06T10:22:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。