論文の概要: Exploring Physical Intelligence Emergence via Omni-Modal Architecture and Physical Data Engine
- arxiv url: http://arxiv.org/abs/2602.07064v1
- Date: Thu, 05 Feb 2026 14:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.416211
- Title: Exploring Physical Intelligence Emergence via Omni-Modal Architecture and Physical Data Engine
- Title(参考訳): Omni-Modal Architectureと物理データエンジンによる物理知能創発の探索
- Authors: Minghao Han, Dingkang Yang, Yue Jiang, Yizhou Liu, Lihua Zhang,
- Abstract要約: 我々はOmniFysicsについて紹介する。OmniFysicsは、画像、音声、ビデオ、テキスト間の理解を統一するコンパクトなオムニモーダルモデルである。
明示的な物理知識を注入するために、2つのコンポーネントからなる物理データエンジンを構築します。
実験は、標準マルチモーダルベンチマークにおける競合性能を示し、物理指向評価の結果を改善した。
- 参考スコア(独自算出の注目度): 50.62040226184694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Physical understanding remains brittle in omni-modal models because key physical attributes are visually ambiguous and sparsely represented in web-scale data. We present OmniFysics, a compact omni-modal model that unifies understanding across images, audio, video, and text, with integrated speech and image generation. To inject explicit physical knowledge, we build a physical data engine with two components. FysicsAny produces physics-grounded instruction--image supervision by mapping salient objects to verified physical attributes through hierarchical retrieval over a curated prototype database, followed by physics-law--constrained verification and caption rewriting. FysicsOmniCap distills web videos via audio--visual consistency filtering to generate high-fidelity video--instruction pairs emphasizing cross-modal physical cues. We train OmniFysics with staged multimodal alignment and instruction tuning, adopt latent-space flow matching for text-to-image generation, and use an intent router to activate generation only when needed. Experiments show competitive performance on standard multimodal benchmarks and improved results on physics-oriented evaluations.
- Abstract(参考訳): なぜなら、重要な物理的属性は視覚的に曖昧で、Webスケールのデータでわずかに表現されているからである。
我々はOmniFysicsについて述べる。OmniFysicsは、画像、音声、ビデオ、テキスト間の理解を統合化し、音声と画像生成を統合したコンパクトなオムニモーダルモデルである。
明示的な物理知識を注入するために、2つのコンポーネントからなる物理データエンジンを構築します。
FysicsOmniCapは、音声-視覚的整合性フィルタリングによってWeb動画を蒸留し、高忠実なビデオ-インストラクションペアを生成する。
我々はOmniFysicsを段階的なマルチモーダルアライメントとインストラクションチューニングで訓練し、テキスト・ツー・イメージ生成のための潜在空間フローマッチングを採用し、インテントルータを使用して、必要な時にのみ生成を起動する。
実験は、標準マルチモーダルベンチマークにおける競合性能を示し、物理指向評価の結果を改善した。
関連論文リスト
- PAVAS: Physics-Aware Video-to-Audio Synthesis [58.746986798623084]
本稿では、物理推論を潜伏拡散に基づくV2A生成に組み込む手法であるPAVAS(Physical-Aware Video-to-Audio Synthesis)を提案する。
PAVASは物理的に可塑性かつ知覚的にコヒーレントな音声を生成し、定量評価と定性評価の両方において既存のV2Aモデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-12-09T06:28:50Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - PhysID: Physics-based Interactive Dynamics from a Single-view Image [1.7214450148288793]
単一視点画像から物理に基づくインタラクティブなダイナミクスの作成を効率化するPhysIDを提案する。
物理的に妥当なリアルタイムレンダリングを実現するために,デバイス上の物理ベースのエンジンをユーザインタラクションと統合する。
論文 参考訳(メタデータ) (2025-06-21T15:57:58Z) - PhysGaia: A Physics-Aware Dataset of Multi-Body Interactions for Dynamic Novel View Synthesis [62.283499219361595]
PhysGaiaは動的ノベルビュー合成(DyNVS)のために設計された物理対応のデータセットである。
私たちのデータセットは、複数のオブジェクト間のリッチな相互作用を伴う複雑な動的シナリオを提供します。
PhysGaiaは、動的ビュー合成、物理に基づくシーン理解、および物理シミュレーションと統合されたディープラーニングモデルの研究を著しく前進させる。
論文 参考訳(メタデータ) (2025-06-03T12:19:18Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。