論文の概要: Hearing Hands: Generating Sounds from Physical Interactions in 3D Scenes
- arxiv url: http://arxiv.org/abs/2506.09989v1
- Date: Wed, 11 Jun 2025 17:58:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.190528
- Title: Hearing Hands: Generating Sounds from Physical Interactions in 3D Scenes
- Title(参考訳): 聴覚ハンド:3次元シーンにおける物理的相互作用から音を生成する
- Authors: Yiming Dou, Wonseok Oh, Yuqing Luo, Antonio Loquercio, Andrew Owens,
- Abstract要約: シーンと物理的に相互作用する人間の手の音を予測できるのか?
我々は、手を使って3Dシーン内で物体を操作する映像を録画する。次に、このアクション・サウンド・ペアを使って、修正された流れモデルのトレーニングを行い、3Dハンド・トラジェクトリを対応するオーディオにマッピングする。
テスト時にユーザは、手ポーズのシーケンスとしてパラメータ化された他のアクションのモデルをクエリして、対応する音を見積もることができる。
- 参考スコア(独自算出の注目度): 16.414283106489457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of making 3D scene reconstructions interactive by asking the following question: can we predict the sounds of human hands physically interacting with a scene? First, we record a video of a human manipulating objects within a 3D scene using their hands. We then use these action-sound pairs to train a rectified flow model to map 3D hand trajectories to their corresponding audio. At test time, a user can query the model for other actions, parameterized as sequences of hand poses, to estimate their corresponding sounds. In our experiments, we find that our generated sounds accurately convey material properties and actions, and that they are often indistinguishable to human observers from real sounds. Project page: https://www.yimingdou.com/hearing_hands/
- Abstract(参考訳): シーンと物理的に相互作用する人間の手の音を予測できるのか?
まず、人間が手を使って3Dシーンで物体を操作する様子を録画する。
次に、これらの動作音対を用いて、修正フローモデルをトレーニングし、3Dハンドトラジェクトリを対応するオーディオにマッピングする。
テスト時にユーザは、手ポーズのシーケンスとしてパラメータ化された他のアクションのモデルをクエリして、対応する音を見積もることができる。
我々の実験では、生成した音は物質の性質や動作を正確に伝達し、実際の音から人間の観察者には区別できないことが判明した。
プロジェクトページ: https://www.yimingdou.com/hearing_hands/
関連論文リスト
- GenZI: Zero-Shot 3D Human-Scene Interaction Generation [39.9039943099911]
我々は3次元人間とシーンの相互作用を生成するための最初のゼロショットアプローチであるGenZIを提案する。
GenZIの鍵となるのは、大きな視覚言語モデル(VLM)による相互作用先行の蒸留です。
既存の学習ベースのアプローチとは対照的に、GenZIはキャプチャされた3Dインタラクションデータに対する従来のニーズを回避している。
論文 参考訳(メタデータ) (2023-11-29T15:40:11Z) - Generating Continual Human Motion in Diverse 3D Scenes [51.90506920301473]
本研究では,3次元シーンにまたがる人間の動きを誘導するアニメーターを合成する手法を提案する。
本研究では,連続的な動作合成問題を経路に沿って歩行し,キーポイントが指定した動作の内外への遷移に分解する。
我々のモデルは、つかんだり、座ったり、傾いたりといった多様な行動の長いシーケンスを生成することができる。
論文 参考訳(メタデータ) (2023-04-04T18:24:22Z) - MIME: Human-Aware 3D Scene Generation [55.30202416702207]
人間の動きを3Dで再現し,室内のシーンを3Dで再現する。
人間の動きは、部屋の空き空間を示しています。
人間との接触は、座ったり、横になったり、触ったりといった活動を支援する表面や物体を指す。
論文 参考訳(メタデータ) (2022-12-08T15:56:17Z) - HUMANISE: Language-conditioned Human Motion Generation in 3D Scenes [54.61610144668777]
本稿では,3次元シーンで3次元人間の動きを生成できる新しいシーン・アンド・ランゲージ・コンディショニング・ジェネレーション・モデルを提案する。
実験により,我々のモデルは3次元シーンにおいて多様で意味的に一貫した人間の動きを生成できることを示した。
論文 参考訳(メタデータ) (2022-10-18T10:14:11Z) - Contact-aware Human Motion Forecasting [87.04827994793823]
我々は,3Dシーンと過去の人間の動作を与えられた将来の人間のポーズを予測することで,シーン認識型3Dモーション予測の課題に取り組む。
提案手法は,現在最先端のヒトの動作予測と,合成データと実データの両方においてヒトの合成手法より優れる。
論文 参考訳(メタデータ) (2022-10-08T07:53:19Z) - Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。
私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。
シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-07T18:59:02Z) - Body2Hands: Learning to Infer 3D Hands from Conversational Gesture Body
Dynamics [87.17505994436308]
身体の動きと手の動きは、非言語的コミュニケーション設定において強く相関しているという知見に基づいて構築する。
身体の動きのみを入力した場合の3次元手形状の予測タスクとして,この先行学習を定式化する。
本モデルでは,3次元手の動きのみを入力として,手の動きを説得力のある3次元手の動きを生成する。
論文 参考訳(メタデータ) (2020-07-23T22:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。