Fugu-MT 論文翻訳(概要): Audio-Driven Reinforcement Learning for Head-Orientation in Naturalistic Environments

論文の概要: Audio-Driven Reinforcement Learning for Head-Orientation in Naturalistic Environments

arxiv url: http://arxiv.org/abs/2409.10048v1
Date: Mon, 16 Sep 2024 07:20:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 16:21:11.867023
Title: Audio-Driven Reinforcement Learning for Head-Orientation in Naturalistic Environments
Title（参考訳）: 自然環境におけるヘッドオリエンテーションのための音声駆動強化学習
Authors: Wessel Ledder, Yuzhen Qin, Kiki van der Heijden,
Abstract要約: 本研究では,音響環境下で話者を指向する自律エージェントを開発するための,音声駆動型DRLフレームワークを提案する。その結果,無響環境下での音声セグメントの訓練において,エージェントがほぼ完璧にタスクを実行することを学習したことがわかった。
参考スコア（独自算出の注目度）: 0.7373617024876725
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Although deep reinforcement learning (DRL) approaches in audio signal processing have seen substantial progress in recent years, audio-driven DRL for tasks such as navigation, gaze control and head-orientation control in the context of human-robot interaction have received little attention. Here, we propose an audio-driven DRL framework in which we utilise deep Q-learning to develop an autonomous agent that orients towards a talker in the acoustic environment based on stereo speech recordings. Our results show that the agent learned to perform the task at a near perfect level when trained on speech segments in anechoic environments (that is, without reverberation). The presence of reverberation in naturalistic acoustic environments affected the agent's performance, although the agent still substantially outperformed a baseline, randomly acting agent. Finally, we quantified the degree of generalization of the proposed DRL approach across naturalistic acoustic environments. Our experiments revealed that policies learned by agents trained on medium or high reverb environments generalized to low reverb environments, but policies learned by agents trained on anechoic or low reverb environments did not generalize to medium or high reverb environments. Taken together, this study demonstrates the potential of audio-driven DRL for tasks such as head-orientation control and highlights the need for training strategies that enable robust generalization across environments for real-world audio-driven DRL applications.
Abstract（参考訳）: 近年,音声信号処理における深部強化学習 (DRL) のアプローチは著しく進歩しているが,ナビゲーションや視線制御,人-ロボット相互作用の文脈における頭部方向制御といったタスクに対する音声駆動型DRLは注目されていない。本稿では, ステレオ音声記録に基づく音声環境において, 話者を指向する自律エージェントを開発するために, 深層Q-ラーニングを利用した音声駆動型DRLフレームワークを提案する。その結果,無響環境(つまり残響を伴わない)における音声セグメントの訓練において,エージェントがほぼ完璧にタスクを実行することを学習したことがわかった。自然音環境における残響の存在は、エージェントのパフォーマンスに影響を及ぼしたが、エージェントは依然としてベースライン、ランダムに作用するエージェントよりもかなり優れていた。最後に,自然音環境におけるDRL手法の一般化の度合いを定量化した。実験の結果, 中・高残響環境において訓練されたエージェントが学習したポリシーは低残響環境に一般化されたが, 無響環境や低残響環境において訓練されたエージェントが学習したポリシーは中・高残響環境には一般化しなかった。本研究は,ヘッドオリエンテーション制御などのタスクにおける音声駆動型DRLの可能性を示すとともに,実世界の音声駆動型DRLアプリケーションのための環境間の堅牢な一般化を実現するためのトレーニング戦略の必要性を強調した。

関連論文リスト

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining [21.26555178371168]
ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-06T18:00:14Z)
Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance [42.90024643696503]
音声強調のためのモデルを協調的に最適化するエンド・ツー・エンドの学習ソリューションを提案する。トレーニングパラダイムを評価するための4つの代表的なアプリケーションについて検討する。
論文参考訳（メタデータ） (2024-08-12T16:23:58Z)
Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training [39.21885486667879]
大型言語モデル(LLM)は、幻覚、時代遅れの知識、追跡不能な推論プロセスなどの課題に遭遇する重大な能力を示す。 Retrieval-augmented Generation(RAG)は、これらの課題を軽減するために、外部データベースからの知識を統合する、有望なソリューションとして登場した。本稿では,RAAT(Retrieval-augmented Adaptive Adrial Training)として知られる新しいRAGアプローチを提案する。
論文参考訳（メタデータ） (2024-05-31T16:24:53Z)
ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文参考訳（メタデータ） (2024-04-24T21:30:01Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Direction-Aware Joint Adaptation of Neural Speech Enhancement and Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文参考訳（メタデータ） (2022-07-15T03:43:35Z)
Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。 3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文参考訳（メタデータ） (2022-06-08T16:38:24Z)
A Deep Reinforcement Learning Approach for Audio-based Navigation and Audio Source Localization in Multi-speaker Environments [1.0527821704930371]
本研究では,3次元環境をナビゲートし,人間の音声源の位置を推定する問題に対して,深層強化学習を適用した。我々はUnityゲームエンジンを用いて2つの仮想環境を作成し、その1つはオーディオベースのナビゲーション問題を示し、もう1つはオーディオソースのローカライゼーション問題を示す。また、PPOオンライン強化学習アルゴリズムに基づく自律エージェントを作成し、これらの環境を解決するためのトレーニングを試みる。
論文参考訳（メタデータ） (2021-10-25T10:18:34Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)
Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文参考訳（メタデータ） (2020-06-23T17:00:22Z)
Robust Reinforcement Learning via Adversarial training with Langevin Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-14T14:59:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。