論文の概要: SonoWorld: From One Image to a 3D Audio-Visual Scene
- arxiv url: http://arxiv.org/abs/2603.28757v1
- Date: Mon, 30 Mar 2026 17:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.555789
- Title: SonoWorld: From One Image to a 3D Audio-Visual Scene
- Title(参考訳): SonoWorld:1枚の画像から3Dオーディオ・ビジュアル・シーンへ
- Authors: Derong Jin, Xiyi Chen, Ming C. Lin, Ruohan Gao,
- Abstract要約: 本稿では,1枚の画像から3次元映像を生成するImage2AVSceneを紹介する。
私たちは、この問題に最初に取り組むフレームワークであるSanoWorldを紹介します。
また,1ショットの音響学習と空間的音源分離への応用を実演する。
- 参考スコア(独自算出の注目度): 29.64658395133738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tremendous progress in visual scene generation now turns a single image into an explorable 3D world, yet immersion remains incomplete without sound. We introduce Image2AVScene, the task of generating a 3D audio-visual scene from a single image, and present SonoWorld, the first framework to tackle this challenge. From one image, our pipeline outpaints a 360° panorama, lifts it into a navigable 3D scene, places language-guided sound anchors, and renders ambisonics for point, areal, and ambient sources, yielding spatial audio aligned with scene geometry and semantics. Quantitative evaluations on a newly curated real-world dataset and a controlled user study confirm the effectiveness of our approach. Beyond free-viewpoint audio-visual rendering, we also demonstrate applications to one-shot acoustic learning and audio-visual spatial source separation. Project website: https://humathe.github.io/sonoworld/
- Abstract(参考訳): 視覚的なシーン生成の急激な進歩は、1枚の画像を探索可能な3Dの世界に変えたが、音なしでは没入は不完全なままである。
本稿では,1枚の画像から3次元映像シーンを生成するImage2AVSceneと,この課題に対処する最初のフレームワークであるSanoWorldを紹介する。
1つの画像から、私たちのパイプラインは360度パノラマを映し出し、ナビゲート可能な3Dシーンに持ち上げ、言語誘導サウンドアンカーを配置し、点、アラル、および周囲のソースのアンビソニクスをレンダリングし、シーンの幾何学とセマンティクスと整合した空間オーディオを生成する。
新しい実世界のデータセットと制御されたユーザスタディの定量的評価により,本手法の有効性が確認された。
自由視点音声-視覚的レンダリング以外にも、ワンショット音響学習や音声-視覚的空間的音源分離への応用を実証する。
プロジェクトウェブサイト:https://humathe.github.io/sonoworld/
関連論文リスト
- WorldExplorer: Towards Generating Fully Navigable 3D Scenes [48.16064304951891]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。
私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文 参考訳(メタデータ) (2025-06-02T15:41:31Z) - 3D Audio-Visual Segmentation [52.34970001474347]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。