Fugu-MT 論文翻訳(概要): The Talking Robot: Distortion-Robust Acoustic Models for Robot-Robot Communication

論文の概要: The Talking Robot: Distortion-Robust Acoustic Models for Robot-Robot Communication

arxiv url: http://arxiv.org/abs/2603.07072v1
Date: Sat, 07 Mar 2026 07:06:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:13.786934
Title: The Talking Robot: Distortion-Robust Acoustic Models for Robot-Robot Communication
Title（参考訳）: 対話型ロボット:ロボットとロボットのコミュニケーションのための歪曲型音響モデル
Authors: Hanlong Li, Karishma Kamalahasan, Jiahui Li, Kazuhiro Nakadai, Shreyas Kousik,
Abstract要約: Artooは、ロボットのための学習された音響通信システムである。ハンドデザインの信号処理をエンドツーエンドのコトレーニングニューラルネットワークに置き換える。
参考スコア（独自算出の注目度）: 6.356219992638542
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Artoo, a learned acoustic communication system for robots that replaces hand-designed signal processing with end-to-end co-trained neural networks. Our system pairs a lightweight text-to-speech (TTS) transmitter (1.18M parameters) with a conformer-based automatic speech recognition (ASR) receiver (938K parameters), jointly optimized through a differentiable channel. Unlike human speech, robot-to-robot communication is paralinguistics-free: the system need not preserve timbre, prosody, or naturalness, only maximize decoding accuracy under channel distortion. Through a three-phase co-training curriculum, the TTS transmitter learns to produce distortion-robust acoustic encodings that surpass the baseline under noise, achieving 8.3% CER at 0 dB SNR. The entire system requires only 2.1M parameters (8.4 MB) and runs in under 13 ms end-to-end on a CPU, making it suitable for deployment on resource-constrained robotic platforms.
Abstract（参考訳）: 本稿では,手書き信号処理をエンドツーエンドのニューラルネットワークに置き換えるロボットのための学習音響通信システムArtooを紹介する。本システムでは,コンバータベース自動音声認識(ASR)受信機(938Kパラメータ)とTTS送信機(1.18Mパラメータ)を併用し,識別可能なチャネルを通じて協調的に最適化する。システムは音色、韻律、自然性を保存する必要はなく、チャネル歪み下での復号精度を最大化できる。 TTS送信機は3段階のコトレーニングカリキュラムを通じて、ノイズの下でベースラインを越え、0dB SNRで8.3%のCERを達成できる歪みローバスト音響符号化を学習する。システム全体のパラメータは2.1M (8.4 MB)しか必要とせず、CPU上では13ミリ秒以下のエンドツーエンドで動作する。

関連論文リスト

StutterZero and StutterFormer: End-to-End Speech Conversion for Stuttering Transcription and Correction [0.0]
この研究で紹介されるStutterZeroとStutterFormerは、最初のエンドツーエンドの波形-波形モデルである。すべてのベンチマークで、StutterZeroはWord Error Rate(WER)を24%削減し、Whisper-Mediumモデルと比較して意味的類似性(BERTScore)を31%改善した。
論文参考訳（メタデータ） (2025-10-21T17:54:36Z)
Fast, High-Quality and Parameter-Efficient Articulatory Synthesis using Differentiable DSP [6.295981052578859]
EMA(Electronic Articulography)のような動脈軌跡は声道フィルタの低次元表現を提供する。本稿では,EMA,F0,ラウドネスから音声を合成できる高速で高品質でパラメータ効率のよいVocoderを提案する。本モデルでは,6.67%の転写単語誤り率(WER)と3.74の平均世論スコア(MOS)を達成し,最新技術(SOTA)ベースラインと比較して1.63%,0.16の改善を行った。
論文参考訳（メタデータ） (2024-09-04T05:12:15Z)
A Multimodal Approach to Device-Directed Speech Detection with Large Language Models [41.37311266840156]
我々は、ユーザが各コマンドをトリガーフレーズで開始しなければならないという要求を省くことが可能かどうかを探る。音声波形から得られた音響情報のみを用いて分類器を訓練する。本研究では,1-best仮説などの自動音声認識システムのデコーダ出力を,大規模言語モデルへの入力特徴とみなす。
論文参考訳（メタデータ） (2024-03-21T14:44:03Z)
Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文参考訳（メタデータ） (2024-01-08T16:37:45Z)
Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文参考訳（メタデータ） (2022-06-15T07:20:28Z)
A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文参考訳（メタデータ） (2022-03-01T20:17:31Z)
Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文参考訳（メタデータ） (2020-08-07T11:02:07Z)
You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文参考訳（メタデータ） (2020-05-14T17:24:57Z)
End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文参考訳（メタデータ） (2020-02-10T16:29:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。