論文の概要: BGM2Pose: Active 3D Human Pose Estimation with Non-Stationary Sounds
- arxiv url: http://arxiv.org/abs/2503.00389v1
- Date: Sat, 01 Mar 2025 07:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:39.680558
- Title: BGM2Pose: Active 3D Human Pose Estimation with Non-Stationary Sounds
- Title(参考訳): BGM2Pose:非定常音を用いたアクティブ3次元人物位置推定
- Authors: Yuto Shibata, Yusuke Oumi, Go Irie, Akisato Kimura, Yoshimitsu Aoki, Mariko Isogawa,
- Abstract要約: BGM2Poseは、任意の音楽(例えば、バックグラウンド音楽)をアクティブなセンシング信号として利用する非侵襲的な人間のポーズ推定手法である。
本手法は人間の不快感を最小限に抑える自然音楽を利用する。
- 参考スコア(独自算出の注目度): 16.0759003139539
- License:
- Abstract: We propose BGM2Pose, a non-invasive 3D human pose estimation method using arbitrary music (e.g., background music) as active sensing signals. Unlike existing approaches that significantly limit practicality by employing intrusive chirp signals within the audible range, our method utilizes natural music that causes minimal discomfort to humans. Estimating human poses from standard music presents significant challenges. In contrast to sound sources specifically designed for measurement, regular music varies in both volume and pitch. These dynamic changes in signals caused by music are inevitably mixed with alterations in the sound field resulting from human motion, making it hard to extract reliable cues for pose estimation. To address these challenges, BGM2Pose introduces a Contrastive Pose Extraction Module that employs contrastive learning and hard negative sampling to eliminate musical components from the recorded data, isolating the pose information. Additionally, we propose a Frequency-wise Attention Module that enables the model to focus on subtle acoustic variations attributable to human movement by dynamically computing attention across frequency bands. Experiments suggest that our method outperforms the existing methods, demonstrating substantial potential for real-world applications. Our datasets and code will be made publicly available.
- Abstract(参考訳): 任意の音楽(例えば、バックグラウンド音楽)をアクティブなセンシング信号として利用する非侵襲的な3次元ポーズ推定法であるBGM2Poseを提案する。
可聴域内に侵入型チャープ信号を用いることで実用性を著しく制限する既存の手法とは異なり,本手法では人間の不快感を最小限に抑える自然音楽を利用する。
標準的な音楽から人間のポーズを推定することは大きな課題である。
測定用に特別に設計された音源とは対照的に、通常の音楽は音量と音量の両方が異なる。
これらの音楽による信号のダイナミックな変化は、人間の動きによる音場の変化と必然的に混ざり合っており、ポーズ推定のための信頼性の高い手がかりを抽出することは困難である。
これらの課題に対処するため、BGM2Poseはコントラスト学習とハードネガティブサンプリングを利用して、レコードデータから音楽成分を除去し、ポーズ情報を分離するContrastive Pose extract Moduleを導入した。
また,周波数帯域にまたがる注意を動的に計算することで,人間の動きに起因する微妙な音響変化に焦点を絞ることができる周波数ワイド・アテンション・モジュールを提案する。
実験の結果,本手法は既存の手法よりも優れており,実世界の応用に有意義な可能性を示唆している。
データセットとコードは公開されます。
関連論文リスト
- Acoustic-based 3D Human Pose Estimation Robust to Human Position [16.0759003139539]
既存のアクティブ・アコースティック・センシング・ベースの3次元ポーズ推定手法は、ターゲットのユーザがスピーカとマイクの線に沿って位置していることを暗黙的に仮定する。
人体による音の反射や回折は、音の妨害に比べて微妙な音響信号の変化を引き起こすため、既存のモデルは、この線から逸脱した被験者の精度を著しく低下させる。
この制限を克服するために,位置判別器と残響耐性モデルからなる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-08T15:56:12Z) - Enhancing Sequential Music Recommendation with Personalized Popularity Awareness [56.972624411205224]
本稿では、パーソナライズされた人気情報をシーケンシャルなレコメンデーションに組み込む新しいアプローチを提案する。
実験結果から、パーソナライズされた最もポピュラーなレコメンデータは、既存の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-06T15:05:12Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Quantifying Noise of Dynamic Vision Sensor [49.665407116447454]
動的視覚センサ(DVS)は、大量のバックグラウンドアクティビティ(BA)ノイズによって特徴付けられる。
標準的な画像処理技術を用いて,ノイズとクリーン化センサ信号とを区別することは困難である。
Detrended Fluctuation Analysis (DFA) から得られたBAノイズを特徴付ける新しい手法が提案されている。
論文 参考訳(メタデータ) (2024-04-02T13:43:08Z) - Music Auto-Tagging with Robust Music Representation Learned via Domain
Adversarial Training [18.71152526968065]
音楽情報検索(MIR)の既存のモデルは、マルチメディアコンテンツにおける環境や音声などの現実的なノイズに苦しむ。
本研究では,音声関連タスクにインスパイアされた,ノイズの多い環境下での音楽の自動タグ付け性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-01-27T06:56:51Z) - DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation [89.50310360658791]
本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。
本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。
DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
論文 参考訳(メタデータ) (2023-08-05T16:18:57Z) - Generating music with sentiment using Transformer-GANs [0.0]
本研究では,人間の感情から得られるデータによって条件付けられた記号音楽の生成モデルを提案する。
我々は,効率の良い線形バージョンの注意と識別器を用いることで,上記の問題に対処しようと試みている。
論文 参考訳(メタデータ) (2022-12-21T15:59:35Z) - AIMusicGuru: Music Assisted Human Pose Correction [8.020211030279686]
生成した音と生成する動きの因果関係を高次に理解する手法を提案する。
音声シグネチャを用いて、正確な人体ポーズ動作モデルを洗練し、予測する。
また,音楽で演奏する3DヴァイオリンのマルチモーダルデータセットMAPdatをオープンソース化した。
論文 参考訳(メタデータ) (2022-03-24T03:16:42Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z) - Perceiving Music Quality with GANs [0.0]
本研究では,大規模な音楽ライブラリ上でGANを訓練し,その判別器を音楽の知覚品質の非参照品質評価尺度として用いることを提案する。
448人の被験者による聴取テストにおいて、被験者は、異なるレベルと種類の信号劣化で、プロが制作した音楽トラックを格付けし、人間の格付けされた素材のデータセットを構築した。
人間の評価データセットを用いて、判別器のスコアが主観的評価と大きく相関していることを示し、提案手法が非参照音質評価尺度の作成に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-06-11T09:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。