Fugu-MT 論文翻訳(概要): A Deep Reinforcement Learning Approach to Audio-Based Navigation in a Multi-Speaker Environment

論文の概要: A Deep Reinforcement Learning Approach to Audio-Based Navigation in a Multi-Speaker Environment

arxiv url: http://arxiv.org/abs/2105.04488v1
Date: Mon, 10 May 2021 16:26:47 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-11 17:03:14.544001
Title: A Deep Reinforcement Learning Approach to Audio-Based Navigation in a Multi-Speaker Environment
Title（参考訳）: マルチスピーカー環境における音声ナビゲーションへの深層強化学習手法
Authors: Petros Giannakopoulos, Aggelos Pikrakis, Yannis Cotronis
Abstract要約: 環境からの生の聴覚感覚情報のみを使用して、2次元空間をナビゲートできる自律エージェントを作成します。私たちの実験は、エージェントが部屋の$ N$事前定義されたスピーカーのセットの中で特定のターゲットスピーカーを首尾よく識別できることを示しています。エージェントは、話者ピッチシフトに対して堅牢であり、各話者に対して限られた数の訓練発話が利用できる場合でも、環境をナビゲートすることができる。
参考スコア（独自算出の注目度）: 1.0527821704930371
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work we use deep reinforcement learning to create an autonomous agent that can navigate in a two-dimensional space using only raw auditory sensory information from the environment, a problem that has received very little attention in the reinforcement learning literature. Our experiments show that the agent can successfully identify a particular target speaker among a set of $N$ predefined speakers in a room and move itself towards that speaker, while avoiding collision with other speakers or going outside the room boundaries. The agent is shown to be robust to speaker pitch shifting and it can learn to navigate the environment, even when a limited number of training utterances are available for each speaker.
Abstract（参考訳）: 本研究では,深層強化学習を用いて,環境からの生の聴覚情報のみを用いて,二次元空間をナビゲートできる自律エージェントを構築する。実験の結果, エージェントは, 室内で予め定義された1組のN$話者の中から特定のターゲット話者を識別し, 他話者との衝突や部屋の境界外への移動を避けながら, その話者に向かって移動することができることがわかった。エージェントは、話者ピッチシフトに対して堅牢であり、各話者に対して限られた数の訓練発話が利用できる場合でも、環境をナビゲートすることができる。

関連論文リスト

Speaker Embeddings to Improve Tracking of Intermittent and Moving Speakers [53.12031345322412]
話者埋め込みを用いた個人識別再割り当て後追跡を提案する。ビームフォーミングは、話者埋め込みを計算するために、話者の位置に対する信号を強化するために使用される。不活発な期間に話者の位置が変化するデータセット上で,提案した話者埋め込みに基づくアイデンティティ再割り当て手法の性能を評価する。
論文参考訳（メタデータ） (2025-06-23T13:02:20Z)
Target Speaker Extraction through Comparing Noisy Positive and Negative Audio Enrollments [34.67934887761352]
雑音の多い音声の例から対象話者の特徴を抽出することを検討した。本研究では,複数の話者が存在する場合のターゲット話者抽出に着目した。実験により,提案課題に対するモデルアーキテクチャの有効性と事前学習法の有効性が示された。
論文参考訳（メタデータ） (2025-02-23T15:33:44Z)
Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。 AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文参考訳（メタデータ） (2024-07-13T09:28:24Z)
HiddenSpeaker: Generate Imperceptible Unlearnable Audios for Speaker Verification System [0.9591674293850556]
学習音声サンプルに知覚不能な摂動を埋め込んだHiddenSpeakerというフレームワークを提案する。以上の結果から,HiddenSpeakerは学習不可能なサンプルでモデルを騙すだけでなく,摂動の知覚能力を高めることが示唆された。
論文参考訳（メタデータ） (2024-05-24T15:49:00Z)
Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。音声言語理解モジュールを導入し、話者関連意味情報を抽出する。本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-09-19T09:13:30Z)
Know your audience: specializing grounded language models with listener subtraction [20.857795779760917]
我々はDixitからインスピレーションを得て、マルチエージェント画像参照ゲームを定式化する。この対照的なマルチエージェント設定において,CLIPビジョンエンコーダと大規模言語モデル間の注意ベースのアダプタを微調整することで,文脈依存の自然言語特殊化がもたらされることを示す。
論文参考訳（メタデータ） (2022-06-16T17:52:08Z)
Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文参考訳（メタデータ） (2022-04-07T13:05:24Z)
A Deep Reinforcement Learning Approach for Audio-based Navigation and Audio Source Localization in Multi-speaker Environments [1.0527821704930371]
本研究では,3次元環境をナビゲートし,人間の音声源の位置を推定する問題に対して,深層強化学習を適用した。我々はUnityゲームエンジンを用いて2つの仮想環境を作成し、その1つはオーディオベースのナビゲーション問題を示し、もう1つはオーディオソースのローカライゼーション問題を示す。また、PPOオンライン強化学習アルゴリズムに基づく自律エージェントを作成し、これらの環境を解決するためのトレーニングを試みる。
論文参考訳（メタデータ） (2021-10-25T10:18:34Z)
A Real-time Speaker Diarization System Based on Spatial Spectrum [14.189768987932364]
本稿では,話者ダイアリゼーションタスクにおける長年の課題に対処するための,新しい体系的アプローチを提案する。まず, 指向性指向性マイクロホンアレイを用いたアプローチを用いて, 遠距離環境下でターゲット話者の声を捕捉する。第2に,話者位置追跡のためのオンライン話者位置連成クラスタリング手法を提案する。第3に、重複した音声を分離するメカニズムをトリガーするインスタント話者数検出器を開発する。
論文参考訳（メタデータ） (2021-07-20T08:25:23Z)
Investigating on Incorporating Pretrained and Learnable Speaker Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。 FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文参考訳（メタデータ） (2021-03-06T10:14:33Z)
A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文参考訳（メタデータ） (2021-01-24T01:28:05Z)
Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。テスト発話から直接適応に用いる話者表現を抽出する。
論文参考訳（メタデータ） (2020-02-14T05:05:36Z)
Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。 SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2020-01-23T05:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。