論文の概要: Spatial Speech Translation: Translating Across Space With Binaural Hearables
- arxiv url: http://arxiv.org/abs/2504.18715v1
- Date: Fri, 25 Apr 2025 21:58:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.957503
- Title: Spatial Speech Translation: Translating Across Space With Binaural Hearables
- Title(参考訳): 空間音声翻訳:バイノーラル可聴音による空間横断翻訳
- Authors: Tuochao Chen, Qirui Wang, Runlin He, Shyam Gollakota,
- Abstract要約: 本稿では,聴覚障害者のための新しい概念である空間音声翻訳について紹介する。
ブラインドソースの分離、ローカライゼーション、リアルタイム翻訳、レンダリングなど、いくつかの技術的課題に取り組みます。
プロトタイプヘッドセットを用いた概念実証では、干渉の有無で失敗する既存のモデルとは異なり、言語間の翻訳で最大22.01のBLEUスコアが得られた。
- 参考スコア(独自算出の注目度): 3.0248879829045388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imagine being in a crowded space where people speak a different language and having hearables that transform the auditory space into your native language, while preserving the spatial cues for all speakers. We introduce spatial speech translation, a novel concept for hearables that translate speakers in the wearer's environment, while maintaining the direction and unique voice characteristics of each speaker in the binaural output. To achieve this, we tackle several technical challenges spanning blind source separation, localization, real-time expressive translation, and binaural rendering to preserve the speaker directions in the translated audio, while achieving real-time inference on the Apple M2 silicon. Our proof-of-concept evaluation with a prototype binaural headset shows that, unlike existing models, which fail in the presence of interference, we achieve a BLEU score of up to 22.01 when translating between languages, despite strong interference from other speakers in the environment. User studies further confirm the system's effectiveness in spatially rendering the translated speech in previously unseen real-world reverberant environments. Taking a step back, this work marks the first step towards integrating spatial perception into speech translation.
- Abstract(参考訳): 人々が異なる言語を話し、聴覚空間を母国語に変換する可聴性を持ちながら、すべての話者のための空間的手がかりを保ちながら、混雑した空間にいることを想像してください。
バイノーラル出力における各話者の方向と独特の音声特性を維持しつつ, 装着者の環境下で話者を翻訳する, 聴取者のための新しい概念である空間音声翻訳を導入する。
これを実現するために,Apple M2 シリコン上でのリアルタイム推論を実現しつつ,ブラインドソース分離,ローカライゼーション,リアルタイム表現翻訳,バイノーラルレンダリングといった技術的課題に対処する。
プロトタイプのバイノーラルヘッドセットを用いた概念実証実験では、干渉の有無で失敗する既存のモデルとは異なり、環境における他の話者からの強い干渉にもかかわらず、言語間を翻訳する際のBLEUスコアが22.01に達することが示された。
ユーザスタディは、それまで目に見えない現実世界の残響環境において、翻訳された音声を空間的にレンダリングするシステムの有効性をさらに確認する。
一歩後退したこの研究は、空間認識を音声翻訳に統合する最初のステップとなる。
関連論文リスト
- CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation [25.82932373649325]
CrossSpeech++は、言語と話者情報をアンタングルする方法である。
これにより、言語間音声合成の品質が大幅に向上する。
さまざまなメトリクスを使って広範な実験を行い、CrossSpeech++が大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2024-12-28T06:32:49Z) - Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。
Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。
音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z) - Generating Multilingual Voices Using Speaker Space Translation Based on
Bilingual Speaker Data [15.114637085644057]
言語における合成音声のアクセントの度合いを制御するために,話者空間における単純な変換が利用できることを示す。
同じ変換を単言語話者にも適用することができる。
論文 参考訳(メタデータ) (2020-04-10T10:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。