論文の概要: Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound
- arxiv url: http://arxiv.org/abs/2512.00883v1
- Date: Sun, 30 Nov 2025 13:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.478112
- Title: Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound
- Title(参考訳): 視覚・視覚の世界モデル:視覚・音の多感的イマジネーションに向けて
- Authors: Jiahua Wang, Shannan Yan, Leqi Zheng, Jialong Wu, Yaoxin Mao,
- Abstract要約: この研究は、AVWM (Audio-Visual World Models) のための最初の公式なフレームワークを提示する。
マルチモーダル環境シミュレーションを、部分的に観察可能な決定プロセスとして定式化し、音声・視覚的観察、きめ細かいアクション、タスク報酬を提供する。
本稿では,視覚学習と聴覚学習のバランスをとる新しいモダリティ・エキスパート・アーキテクチャを用いたオーディオ・ビジュアル・コンディショナル・トランスフォーマーを提案する。
- 参考スコア(独自算出の注目度): 5.591620304505415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models simulate environmental dynamics to enable agents to plan and reason about future states. While existing approaches have primarily focused on visual observations, real-world perception inherently involves multiple sensory modalities. Audio provides crucial spatial and temporal cues such as sound source localization and acoustic scene properties, yet its integration into world models remains largely unexplored. No prior work has formally defined what constitutes an audio-visual world model or how to jointly capture binaural spatial audio and visual dynamics under precise action control with task reward prediction. This work presents the first formal framework for Audio-Visual World Models (AVWM), formulating multimodal environment simulation as a partially observable Markov decision process with synchronized audio-visual observations, fine-grained actions, and task rewards. To address the lack of suitable training data, we construct AVW-4k, a dataset comprising 30 hours of binaural audio-visual trajectories with action annotations and reward signals across 76 indoor environments. We propose AV-CDiT, an Audio-Visual Conditional Diffusion Transformer with a novel modality expert architecture that balances visual and auditory learning, optimized through a three-stage training strategy for effective multimodal integration. Extensive experiments demonstrate that AV-CDiT achieves high-fidelity multimodal prediction across visual and auditory modalities with reward. Furthermore, we validate its practical utility in continuous audio-visual navigation tasks, where AVWM significantly enhances the agent's performance.
- Abstract(参考訳): 世界モデルは環境力学をシミュレートし、エージェントが将来の状態を計画し、推論できるようにする。
既存のアプローチは主に視覚的な観察に焦点を合わせてきたが、現実の知覚は本質的に複数の感覚モダリティを含んでいる。
オーディオは、音源の定位や音響シーン特性などの重要な空間的・時間的手がかりを提供するが、世界モデルへの統合は未解明のままである。
音声と視覚の世界モデルを構成するものや、タスク報酬予測を伴う正確なアクション制御の下で、バイノーラルな空間的オーディオと視覚力学を協調的に捉える方法について、事前の作業は公式には定義されていない。
本研究は,マルチモーダル環境シミュレーションを部分的に可観測性のあるマルコフ決定プロセスとして定式化した,オーディオ・ビジュアル・ワールド・モデル(AVWM)の最初の形式的枠組みを提示する。
AVW-4kは,行動アノテーションと報酬信号を備えたバイノーラル・オーディオ・ビジュアル・トラジェクトリの30時間のデータセットである。
AV-CDiTは,視覚と聴覚の学習のバランスを保ちながら,効果的なマルチモーダル統合のための3段階の学習戦略によって最適化された,新しいモダリティエキスパートアーキテクチャを備えたオーディオ・ビジュアル条件拡散変換器である。
AV-CDiTは視覚的・聴覚的モダリティ全体にわたる高忠実なマルチモーダル予測を実現する。
さらに,AVWMがエージェントの性能を大幅に向上させる連続的な音声視覚ナビゲーションタスクにおいて,その実用性を検証する。
関連論文リスト
- Spatial and Semantic Embedding Integration for Stereo Sound Event Localization and Detection in Regular Videos [3.2472293599354596]
本報告では,DCASE2025 Task 3 Challenge: Stereo Sound Event Localization and Detection in regular Video Contentの音声のみおよび音声視覚トラックに提案するシステムについて述べる。
SELDは、時間的事象分類と空間的局所化を組み合わせた複雑なタスクであり、空間的、時間的、意味的な次元にわたって推論を必要とする。
そこで本研究では,音声用CLAPと視覚入力用OWL-ViTという,事前学習型コントラスト言語対応モデルを統合することで,セマンティック情報を用いた標準的なSELDアーキテクチャを強化した。
論文 参考訳(メタデータ) (2025-07-07T10:08:57Z) - Differentiable Room Acoustic Rendering with Multi-View Vision Priors [12.30408352143278]
本研究では,多視点画像から抽出した視覚的手がかりとアコースティックビームトレーシングを利用した物理ベースの室内音響レンダリングシステムであるAV-DARについて紹介する。
2つのデータセットから6つの実世界の環境にまたがる実験は、我々のマルチモーダルな物理ベースのアプローチが効率的で解釈可能で正確であることを示した。
論文 参考訳(メタデータ) (2025-04-30T17:55:29Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense
Interactions through Masked Modeling [24.346868432774453]
人間は聴覚情報と視覚情報を統合でき、周囲の環境をより深く理解することができる。
認知心理学と神経科学の研究を通じて実証された、音声と視覚の早期融合は、マルチモーダル知覚モデルを開発するための有望な可能性を提供する。
初期融合によるオーディオ・ビジュアル・エンコーダの訓練にマスク付き再構成フレームワークを活用することで、早期融合アーキテクチャの訓練に対処する。
本研究では,局所的な音声と視覚的表現の相互作用を捉え,細粒度な相互作用を捕捉するモデルの能力を向上する,注意に基づく融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-02T03:38:49Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。