論文の概要: Acoustic-based 3D Human Pose Estimation Robust to Human Position
- arxiv url: http://arxiv.org/abs/2411.07165v1
- Date: Fri, 08 Nov 2024 15:56:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:29.819915
- Title: Acoustic-based 3D Human Pose Estimation Robust to Human Position
- Title(参考訳): 音響による人体位置推定のロバスト化
- Authors: Yusuke Oumi, Yuto Shibata, Go Irie, Akisato Kimura, Yoshimitsu Aoki, Mariko Isogawa,
- Abstract要約: 既存のアクティブ・アコースティック・センシング・ベースの3次元ポーズ推定手法は、ターゲットのユーザがスピーカとマイクの線に沿って位置していることを暗黙的に仮定する。
人体による音の反射や回折は、音の妨害に比べて微妙な音響信号の変化を引き起こすため、既存のモデルは、この線から逸脱した被験者の精度を著しく低下させる。
この制限を克服するために,位置判別器と残響耐性モデルからなる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 16.0759003139539
- License:
- Abstract: This paper explores the problem of 3D human pose estimation from only low-level acoustic signals. The existing active acoustic sensing-based approach for 3D human pose estimation implicitly assumes that the target user is positioned along a line between loudspeakers and a microphone. Because reflection and diffraction of sound by the human body cause subtle acoustic signal changes compared to sound obstruction, the existing model degrades its accuracy significantly when subjects deviate from this line, limiting its practicality in real-world scenarios. To overcome this limitation, we propose a novel method composed of a position discriminator and reverberation-resistant model. The former predicts the standing positions of subjects and applies adversarial learning to extract subject position-invariant features. The latter utilizes acoustic signals before the estimation target time as references to enhance robustness against the variations in sound arrival times due to diffraction and reflection. We construct an acoustic pose estimation dataset that covers diverse human locations and demonstrate through experiments that our proposed method outperforms existing approaches.
- Abstract(参考訳): 本稿では,低レベル音響信号のみを用いた3次元ポーズ推定の問題について検討する。
既存のアクティブ・アコースティック・センシング・ベースの3次元ポーズ推定手法は、ターゲットのユーザがスピーカとマイクの線に沿って位置していることを暗黙的に仮定する。
人間の身体による音の反射や回折は、音の妨害に比べて微妙な音響信号の変化を引き起こすため、既存のモデルは、被験者がこの線から逸脱したときの精度を著しく低下させ、現実のシナリオにおけるその実用性を制限する。
この制限を克服するために,位置判別器と残響耐性モデルからなる新しい手法を提案する。
前者は、被験者の立位を予測し、対人学習を適用して、被験者の位置不変の特徴を抽出する。
後者は、推定目標時刻前の音響信号を基準として、回折と反射による音の到来時間の変化に対するロバスト性を高める。
本研究では,人間の多様な位置をカバーする音響ポーズ推定データセットを構築し,提案手法が既存手法より優れていることを示す実験を行った。
関連論文リスト
- Unsupervised Blind Joint Dereverberation and Room Acoustics Estimation with Diffusion Models [21.669363620480333]
BUDDyと呼ばれるブラインド・デバーベーションと室内インパルス応答推定の教師なし手法を提案する。
室内のインパルス応答が不明な視覚的シナリオでは、BUDDyは音声の発声に成功している。
一般化に苦しむ教師付き手法とは異なり、BUDDyは異なる音響条件にシームレスに適応する。
論文 参考訳(メタデータ) (2024-08-14T11:31:32Z) - 3D Human Pose Analysis via Diffusion Synthesis [65.268245109828]
PADSは、逆問題フレームワーク内での一般的な3次元ポーズ解析に取り組むための、初めての拡散ベースのフレームワークである。
その性能は異なるベンチマークで検証され、パイプラインの適応性と堅牢性を示している。
論文 参考訳(メタデータ) (2024-01-17T02:59:34Z) - An Integrated Algorithm for Robust and Imperceptible Audio Adversarial
Examples [2.2866551516539726]
実効性のある音声ファイルが生成され、認識性や頑健性に関して微調整される。
本稿では,心理音響モデルと室内インパルス応答(RIR)を用いた統合アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-05T06:59:09Z) - Bayesian inference and neural estimation of acoustic wave propagation [10.980762871305279]
本稿では,物理と機械学習を組み合わせて音響信号を解析する新しい枠組みを提案する。
この課題のために, スペクトル音響特性を推定するベイズ推定法, 前方および後方の物理的損失をニューラルネットワークに装備するニューラルネットワーク物理モデル, ベンチマークとして機能する非線形最小二乗法, の3つの手法が開発された。
このフレームワークの単純さと効率性は、シミュレーションデータ上で実証的に検証されている。
論文 参考訳(メタデータ) (2023-05-28T15:14:46Z) - Ada3Diff: Defending against 3D Adversarial Point Clouds via Adaptive
Diffusion [70.60038549155485]
ディープ3Dポイントクラウドモデルは敵攻撃に敏感であり、自律運転のような安全クリティカルなアプリケーションに脅威をもたらす。
本稿では,適応強度推定器と拡散モデルを用いて,プリスタンデータ分布を再構築できる新しい歪み認識型防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-29T14:32:43Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Informed Source Extraction With Application to Acoustic Echo Reduction [8.296684637620553]
ディープラーニング手法は、ターゲット話者が発する参照スニペットを単一の埋め込みベクトルにマッピングする話者識別モデルを活用する。
本稿では,参照信号の時間的ダイナミクスを捉えた時間変化源判別モデルを提案する。
実験結果から,提案手法は音響エコー低減シナリオに適用した場合の抽出性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-09T17:13:23Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。