論文の概要: A Synergistic Framework of Nonlinear Acoustic Computing and Reinforcement Learning for Real-World Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2505.01998v2
- Date: Tue, 06 May 2025 16:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 12:42:37.958828
- Title: A Synergistic Framework of Nonlinear Acoustic Computing and Reinforcement Learning for Real-World Human-Robot Interaction
- Title(参考訳): 実世界の人間-ロボットインタラクションのための非線形音響コンピューティングと強化学習の相乗的枠組み
- Authors: Xiaoliang Chen, Xin Yu, Le Chang, Yunhe Huang, Jiashuai He, Shibo Zhang, Jin Li, Likai Lin, Ziyu Zeng, Xianling Tu, Shuyu Zhang,
- Abstract要約: 本稿では, 非線形音響計算と強化学習を統合し, 複雑な雑音と残響下での人間とロボットの相互作用を強化する新しい枠組みを提案する。
提案システムは,AIハードウェア,ロボット,マシンオーディション,人工オーディション,ブレイン・マシン・インタフェースの幅広い応用可能性を示す。
- 参考スコア(独自算出の注目度): 15.759904937490832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel framework integrating nonlinear acoustic computing and reinforcement learning to enhance advanced human-robot interaction under complex noise and reverberation. Leveraging physically informed wave equations (e.g., Westervelt, KZK), the approach captures higher-order phenomena such as harmonic generation and shock formation. By embedding these models in a reinforcement learning-driven control loop, the system adaptively optimizes key parameters (e.g., absorption, beamforming) to mitigate multipath interference and non-stationary noise. Experimental evaluations, covering far-field localization, weak signal detection, and multilingual speech recognition, demonstrate that this hybrid strategy surpasses traditional linear methods and purely data-driven baselines, achieving superior noise suppression, minimal latency, and robust accuracy in demanding real-world scenarios. The proposed system demonstrates broad application prospects in AI hardware, robot, machine audition, artificial audition, and brain-machine interfaces.
- Abstract(参考訳): 本稿では, 非線形音響計算と強化学習を統合し, 複雑な雑音や残響下での人間とロボットの相互作用を向上させる新しい枠組みを提案する。
物理的にインフォームドされた波動方程式(例えば、ウェスターベルト、KZK)を利用して、このアプローチは調和生成や衝撃生成のような高次現象を捉える。
これらのモデルを強化学習駆動制御ループに埋め込むことで、システムはキーパラメータ(例えば、吸収、ビームフォーミング)を適応的に最適化し、マルチパス干渉と非定常雑音を緩和する。
遠距離場ローカライゼーション、弱い信号検出、多言語音声認識を対象とし、このハイブリッド戦略が従来の線形手法や純粋にデータ駆動ベースラインを超越し、より優れたノイズ抑圧、最小レイテンシ、実世界のシナリオ要求における堅牢な精度を実現していることを示す。
提案システムは,AIハードウェア,ロボット,マシンオーディション,人工オーディション,ブレイン・マシン・インタフェースの幅広い応用可能性を示す。
関連論文リスト
- Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Developing an Effective Training Dataset to Enhance the Performance of AI-based Speaker Separation Systems [0.3277163122167434]
本稿では,各話者に対して,混合信号と対応する接地真実を含む現実的な学習セットを構築するための新しい手法を提案する。
実感混合における話者分離精度向上のためのSI-SDR(Scale Invariant Signal to Distortion Ratio)を1.65dB改善した。
論文 参考訳(メタデータ) (2024-11-13T06:55:18Z) - Neural Speech and Audio Coding: Modern AI Technology Meets Traditional Codecs [19.437080345021105]
本稿では,ニューラル音声および音声符号化システムの領域におけるモデルベースおよびデータ駆動型アプローチの統合について検討する。
既存のコーデックの出力を後処理するように設計されたニューラルネットワークベースの信号エンハンサーを導入している。
本稿では、精神音響学的に校正された損失関数を用いて、エンドツーエンドのニューラルオーディオコーデックを訓練する方法について検討する。
論文 参考訳(メタデータ) (2024-08-13T15:13:21Z) - ML-ASPA: A Contemplation of Machine Learning-based Acoustic Signal
Processing Analysis for Sounds, & Strains Emerging Technology [0.0]
本稿では,機械学習(ML)とディープラーニングに焦点をあてて,音響分野における最近の進歩と変革の可能性を探る。
MLはデータ駆動のアプローチを採用し、機能と望ましいラベルやアクション、さらには機能自体の複雑な関係を明らかにする。
機械学習のトレーニングデータの拡張への応用により、人間の発話や残響のような複雑な音響現象を解明するモデルが発見される。
論文 参考訳(メタデータ) (2023-12-18T03:04:42Z) - A novel multi-layer modular approach for real-time fuzzy-identification
of gravitational-wave signals [0.0]
本稿では,音声処理技術に触発された重力波のリアルタイム検出のための新しい階層化フレームワークを提案する。
本稿では,フレームワークの基本概念と,最初の3つのレイヤの導出について述べる。
畳み込みニューラルネットワークのようなより複雑なアプローチと比較して、我々のフレームワークは精度が低い。
論文 参考訳(メタデータ) (2022-06-13T09:48:38Z) - A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:48:41Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Automated and Formal Synthesis of Neural Barrier Certificates for
Dynamical Models [70.70479436076238]
バリア証明書(BC)の自動的,形式的,反例に基づく合成手法を提案する。
このアプローチは、ニューラルネットワークとして構造化されたBCの候補を操作する誘導的フレームワークと、その候補の有効性を認証するか、反例を生成する音検証器によって支えられている。
その結果,音のBCsを最大2桁の速度で合成できることがわかった。
論文 参考訳(メタデータ) (2020-07-07T07:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。