論文の概要: VibraVerse: A Large-Scale Geometry-Acoustics Alignment Dataset for Physically-Consistent Multimodal Learning
- arxiv url: http://arxiv.org/abs/2511.20422v1
- Date: Tue, 25 Nov 2025 15:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.534307
- Title: VibraVerse: A Large-Scale Geometry-Acoustics Alignment Dataset for Physically-Consistent Multimodal Learning
- Title(参考訳): VibraVerse: 物理的に一貫性のあるマルチモーダル学習のための大規模幾何学・音響アライメントデータセット
- Authors: Bo Pang, Chenxi Xu, Jierui Ren, Guoping Wang, Sheng Li,
- Abstract要約: VibraVerseは3次元形状から物理的属性、モーダルパラメータ、音響信号から因果連鎖をブリッジする大規模なデータセットである。
CLASPは、オブジェクトの物理的構造と音響応答の間の因果関係を保存する、クロスモーダルアライメントのための対照的な学習フレームワークである。
VibraVerseをベースとして、幾何から音への予測、音響誘導形再構成、モーダル表現学習のためのベンチマークタスクスイートを定義する。
- 参考スコア(独自算出の注目度): 17.790063818997975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the physical world requires perceptual models grounded in physical laws rather than mere statistical correlations. However, existing multimodal learning frameworks, focused on vision and language, lack physical consistency and overlook the intrinsic causal relationships among an object's geometry, material, vibration modes, and the sounds it produces. We introduce VibraVerse, a large-scale geometry-acoustics alignment dataset that explicitly bridges the causal chain from 3D geometry -> physical attributes -> modal parameters -> acoustic signals. Each 3D model has explicit physical properties (density, Young's modulus, Poisson's ratio) and volumetric geometry, from which modal eigenfrequencies and eigenvectors are computed for impact sound synthesis under controlled excitations. To establish this coherence, we introduce CLASP, a contrastive learning framework for cross-modal alignment that preserves the causal correspondence between an object's physical structure and its acoustic response. This framework enforces physically consistent alignment across modalities, ensuring that every sample is coherent, traceable to the governing equations, and embedded within a unified representation space spanning shape, image, and sound. Built upon VibraVerse, we define a suite of benchmark tasks for geometry-to-sound prediction, sound-guided shape reconstruction, and cross-modal representation learning. Extensive validations on these tasks demonstrate that models trained on VibraVerse exhibit superior accuracy, interpretability, and generalization across modalities. These results establish VibraVerse as a benchmark for physically consistent and causally interpretable multimodal learning, providing a foundation for sound-guided embodied perception and a deeper understanding of the physical world. The dataset will be open-sourced.
- Abstract(参考訳): 物理世界を理解するには、単なる統計的相関ではなく、物理法則に基づく知覚モデルが必要である。
しかし、視覚と言語に焦点を当てた既存のマルチモーダル学習フレームワークは、物理的な一貫性を欠き、オブジェクトの幾何学、材料、振動モード、そしてそれが生成する音の固有の因果関係を見落としている。
VibraVerseは3次元形状から物理的属性,モーダルパラメータ,音響信号から因果連鎖を明示的にブリッジする大規模幾何音響アライメントデータセットである。
それぞれの3次元モデルは、比重、ヤング率、ポアソン比)と体積幾何学を持ち、そこからモーダル固有周波数と固有ベクトルを制御励起下での衝撃音合成のために計算する。
このコヒーレンスを確立するために,物体の物理的構造と音響応答の因果関係を保存するクロスモーダルアライメントのための対照的な学習フレームワークであるCLASPを紹介する。
この枠組みは、モダリティ間の物理的に一貫したアライメントを強制し、全てのサンプルがコヒーレントで、支配方程式にトレース可能であり、形状、画像、音にまたがる統一表現空間に埋め込まれることを保証する。
VibraVerseをベースとして、幾何から音への予測、音響誘導形再構成、モーダル表現学習のためのベンチマークタスクスイートを定義する。
これらのタスクに対する大規模な検証は、VibraVerseでトレーニングされたモデルが、モーダル性を越えた精度、解釈可能性、一般化を示すことを示している。
これらの結果は、物理的に一貫した、因果的に解釈可能なマルチモーダル学習のためのベンチマークとしてVibraVerseを確立し、音誘導の具体的知覚の基礎と物理世界に対する深い理解を提供する。
データセットはオープンソースになる予定だ。
関連論文リスト
- Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects [59.51185639557874]
本稿では,任意のRGB画像やテキスト記述から直接音声オブジェクトを合成するフレームワークであるKinematifyを紹介する。
提案手法は, 高DoFオブジェクトに対する運動的トポロジの推測と静的幾何からの関節パラメータの推定という2つの課題に対処する。
論文 参考訳(メタデータ) (2025-11-03T07:21:42Z) - Inferring Dynamic Physical Properties from Video Foundation Models [94.35979242947873]
ビデオから動的物理特性を予測するタスクについて検討する。
時間的情報を必要とする物理的特性として,バウンディング物体の弾性,流動液体の粘度,表面を滑り落ちる物体の動的摩擦について考察する。
論文 参考訳(メタデータ) (2025-10-02T17:59:50Z) - Optimizing Speech Language Models for Acoustic Consistency [2.5864269455844484]
我々は、0.7B音声のみのモデル、1.0B音声のみのモデル、1.0Bテキストと音声の両方のインターリーブモデルという3つのモデルを訓練する。
提案手法は,音声トークンを自己教師機能付きで初期化し,光アライメントロスを施し,薄型化と補助的目的を有する列車に適用する。
論文 参考訳(メタデータ) (2025-09-30T13:59:52Z) - Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture [0.0]
本稿では,ある音声音響に係わる舌と唇の調音特徴を予測するための新しい手法を提案する。
提案するネットワークは,同時記録音声とEMA(Electromagnetic Articulography)データセットの2つのデータセットで訓練されている。
論文 参考訳(メタデータ) (2025-04-25T05:57:22Z) - The Sound of Water: Inferring Physical Properties from Pouring Liquids [85.30865788636386]
注水液の音響・視覚観測と物理の関連性について検討した。
本研究の目的は, 液位, 容器形状, 注水速度, 充填時間などの物性を自動的に推定することである。
論文 参考訳(メタデータ) (2024-11-18T01:19:37Z) - Differentiable Modal Synthesis for Physical Modeling of Planar String Sound and Motion Simulation [17.03776191787701]
非線形弦の運動特性をシミュレーションする新しいモデルを提案する。
我々は物理ネットワークフレームワークにモーダル合成とスペクトルモデリングを統合する。
経験的評価は、弦運動シミュレーションにおいて、アーキテクチャが優れた精度を達成することを示す。
論文 参考訳(メタデータ) (2024-07-07T23:36:51Z) - Speech Audio Synthesis from Tagged MRI and Non-Negative Matrix
Factorization via Plastic Transformer [11.91784203088159]
重み付けマップを対応する音声波形に変換するためのエンドツーエンドのディープラーニングフレームワークを開発する。
我々のフレームワークは、重み付けマップから音声音声波形を合成することができ、従来の畳み込みモデルやトランスフォーマーモデルよりも優れている。
論文 参考訳(メタデータ) (2023-09-26T00:21:17Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。