論文の概要: AudioScene: Integrating Object-Event Audio into 3D Scenes
- arxiv url: http://arxiv.org/abs/2512.07845v1
- Date: Tue, 25 Nov 2025 14:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.508864
- Title: AudioScene: Integrating Object-Event Audio into 3D Scenes
- Title(参考訳): オブジェクトイベントオーディオを3Dシーンに統合するAudioScene
- Authors: Shuaihang Yuan, Congcong Wen, Muhammad Shafique, Anthony Tzes, Yi Fang,
- Abstract要約: 本稿では,AudioScanNetとAudioRobothorという2つの新しいオーディオ空間シーンデータセットを提案する。
音声クリップと空間的に整列した3Dシーンを統合することで、我々のデータセットは、音声信号が空間的文脈とどのように相互作用するかの研究を可能にする。
- 参考スコア(独自算出の注目度): 19.66595321540055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advances in audio analysis underscore its vast potential for humancomputer interaction, environmental monitoring, and public safety; yet, existing audioonly datasets often lack spatial context. To address this gap, we present two novel audiospatial scene datasets, AudioScanNet and AudioRoboTHOR, designed to explore audioconditioned tasks within 3D environments. By integrating audio clips with spatially aligned 3D scenes, our datasets enable research on how audio signals interact with spatial context. To associate audio events with corresponding spatial information, we leverage the common sense reasoning ability of large language models and supplement them with rigorous human verification, This approach offers greater scalability compared to purely manual annotation while maintaining high standards of accuracy, completeness, and diversity, quantified through inter annotator agreement and performance on two benchmark tasks audio based 3D visual grounding and audio based robotic zeroshot navigation. The results highlight the limitations of current audiocentric methods and underscore the practical challenges and significance of our datasets in advancing audio guided spatial learning.
- Abstract(参考訳): オーディオ分析の急速な進歩は、人間のコンピュータのインタラクション、環境モニタリング、公衆の安全に対する大きな可能性を浮き彫りにしている。
このギャップに対処するために,3次元環境下での音声調和タスクを探索するために,AudioScanNetとAudioRoboTHORという2つの新しいオーディオ空間シーンデータセットを提案する。
音声クリップと空間的に整列した3Dシーンを統合することで、我々のデータセットは、音声信号が空間的文脈とどのように相互作用するかの研究を可能にする。
音声イベントと対応する空間情報とを関連付けるために,大言語モデルの常識推論能力を活用し,厳密な人間による検証を補完する。本手法は,音声に基づく3次元視覚的接地と音声に基づくロボットゼロショットナビゲーションを用いて,アノテータ間のアノテータ合意と性能によって定量化され,精度,完全性,多様性の高水準を維持しながら,純粋に手動アノテーションよりも高いスケーラビリティを提供する。
その結果,現在の音声中心手法の限界を浮き彫りにし,音声誘導空間学習の進歩におけるデータセットの実践的課題と意義を浮き彫りにした。
関連論文リスト
- In-the-wild Audio Spatialization with Flexible Text-guided Localization [37.60344400859993]
没入感を高めるために、オーディオはAR、VR、組み込みAIアプリケーションにおける音の物体を空間的に認識する。
既存のオーディオ空間化法は一般に任意のモノラルオーディオを音声信号にマッピングできるが、複雑なマルチオブジェクトのユーザ対話環境において必要とされる柔軟性と対話性に欠けることが多い。
フレキシブルテキストプロンプトを利用したテキスト誘導型音声空間化(TAS)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-01T09:41:56Z) - Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。
提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:50:27Z) - SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera [61.642416712939095]
SoundLoc3Dはタスクをセット予測問題として扱い、セットの各要素は潜在的な音源に対応する。
大規模シミュレーションデータセットにおけるSoundLoc3Dの有効性と優位性を示す。
論文 参考訳(メタデータ) (2024-12-22T05:04:17Z) - 3D Audio-Visual Segmentation [52.34970001474347]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound [5.999777817331317]
SEE-2-SOUNDは,タスクを(1)視覚領域の識別,(2)これらの要素を3次元空間に配置すること,(3)モノオーディオを生成すること,(4)空間オーディオに統合すること,に分解するゼロショットアプローチである。
本フレームワークを用いて,インターネットから高画質ビデオ,画像,ダイナミック画像,および学習手法によって生成されたメディアに対して,空間音声を生成するための説得力のある結果を提示する。
論文 参考訳(メタデータ) (2024-06-06T22:55:01Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。