論文の概要: A Deep Reinforcement Learning Approach for Audio-based Navigation and
Audio Source Localization in Multi-speaker Environments
- arxiv url: http://arxiv.org/abs/2110.12778v1
- Date: Mon, 25 Oct 2021 10:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 00:52:46.339640
- Title: A Deep Reinforcement Learning Approach for Audio-based Navigation and
Audio Source Localization in Multi-speaker Environments
- Title(参考訳): マルチスピーカー環境における音声ナビゲーションと音源定位のための深層強化学習手法
- Authors: Petros Giannakopoulos, Aggelos Pikrakis, Yannis Cotronis
- Abstract要約: 本研究では,3次元環境をナビゲートし,人間の音声源の位置を推定する問題に対して,深層強化学習を適用した。
我々はUnityゲームエンジンを用いて2つの仮想環境を作成し、その1つはオーディオベースのナビゲーション問題を示し、もう1つはオーディオソースのローカライゼーション問題を示す。
また、PPOオンライン強化学習アルゴリズムに基づく自律エージェントを作成し、これらの環境を解決するためのトレーニングを試みる。
- 参考スコア(独自算出の注目度): 1.0527821704930371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we apply deep reinforcement learning to the problems of
navigating a three-dimensional environment and inferring the locations of human
speaker audio sources within, in the case where the only available information
is the raw sound from the environment, as a simulated human listener placed in
the environment would hear it. For this purpose we create two virtual
environments using the Unity game engine, one presenting an audio-based
navigation problem and one presenting an audio source localization problem. We
also create an autonomous agent based on PPO online reinforcement learning
algorithm and attempt to train it to solve these environments. Our experiments
show that our agent achieves adequate performance and generalization ability in
both environments, measured by quantitative metrics, even when a limited amount
of training data are available or the environment parameters shift in ways not
encountered during training. We also show that a degree of agent knowledge
transfer is possible between the environments.
- Abstract(参考訳): 本研究は,3次元環境をナビゲートし,環境からの生音が唯一の情報である場合,環境に置かれる人間のリスナーが聞き取るように,人間の話者音声源の位置を推定する問題に対して,深層強化学習を適用する。
この目的のために,unityゲームエンジンを用いて2つの仮想環境を作成する。1つはオーディオベースのナビゲーション問題,もう1つはオーディオソースのローカライズ問題を示す。
また、PPOオンライン強化学習アルゴリズムに基づく自律エージェントを作成し、これらの環境を解決するためのトレーニングを試みる。
実験では, 限られたトレーニングデータや, 訓練中に遭遇しない方法で環境パラメータが変化する場合においても, 定量的測定により両環境において, 適切な性能と一般化能力が得られることを示す。
また,エージェントの知識伝達の程度が環境間で可能であることを示す。
関連論文リスト
- Audio-Driven Reinforcement Learning for Head-Orientation in Naturalistic Environments [0.7373617024876725]
本研究では,音響環境下で話者を指向する自律エージェントを開発するための,音声駆動型DRLフレームワークを提案する。
その結果,無響環境下での音声セグメントの訓練において,エージェントがほぼ完璧にタスクを実行することを学習したことがわかった。
論文 参考訳(メタデータ) (2024-09-16T07:20:33Z) - Audio Simulation for Sound Source Localization in Virtual Evironment [0.0]
信号遮断環境における非視線局所化は、難しいが関連する問題である。
本研究では,物理基底音の伝搬シミュレーションと機械学習手法を利用して,仮想環境内の特定の場所に音源を配置することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T03:18:28Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual
Navigation in Noisy Environments [41.21509045214965]
CAVENは、エージェントが音声目標にナビゲートするタスクを解決するためのヒューマン/オーラルと対話することのできるフレームワークである。
以上の結果から,我々の全会話的アプローチは,成功率のオーダー・オブ・マグニチュード改善にほぼ寄与していることがわかった。
論文 参考訳(メタデータ) (2023-06-06T22:32:49Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped
Environments with Moving Sounds [5.002862602915434]
オーディオ視覚ナビゲーションは、視覚と聴覚を組み合わせて、マップされていない環境で音を発する音源にナビゲートする。
そこで本研究では,ノイズや邪魔な音を伴って環境中を移動した音源をキャッチする必要がある動的視覚ナビゲーションベンチマークを提案する。
我々の手法は、音の移動、聴覚のない音、騒々しい環境など、あらゆるタスクにおいて、最先端技術よりも一貫して優れています。
論文 参考訳(メタデータ) (2021-11-29T15:17:46Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - A Deep Reinforcement Learning Approach to Audio-Based Navigation in a
Multi-Speaker Environment [1.0527821704930371]
環境からの生の聴覚感覚情報のみを使用して、2次元空間をナビゲートできる自律エージェントを作成します。
私たちの実験は、エージェントが部屋の$ N$事前定義されたスピーカーのセットの中で特定のターゲットスピーカーを首尾よく識別できることを示しています。
エージェントは、話者ピッチシフトに対して堅牢であり、各話者に対して限られた数の訓練発話が利用できる場合でも、環境をナビゲートすることができる。
論文 参考訳(メタデータ) (2021-05-10T16:26:47Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。