論文の概要: TelePhysics: Physics-Grounded Multi-Object Scene Generation from a Single Image with Real-Time Interaction
- arxiv url: http://arxiv.org/abs/2605.20290v1
- Date: Tue, 19 May 2026 08:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.274363
- Title: TelePhysics: Physics-Grounded Multi-Object Scene Generation from a Single Image with Real-Time Interaction
- Title(参考訳): TelePhysics: リアルタイムインタラクションによる単一画像からの物理を取り巻くマルチオブジェクトシーン生成
- Authors: Xin Zhang, Yabo Chen, Yijie Fang, Wanying Qu, Haibin Huang, Chi Zhang, Feng Xu, Xuelong Li,
- Abstract要約: トレーニング不要なフレームワークであるTelePhysicsを提案する。
空間座標系で全シーンの幾何学を表現することで、TelePhysicsは物体の侵入とアライメントのあいまいさを解消する。
実験結果から,TelePhysicsは,物理忠実度,空間コヒーレンス,制御性において,従来手法よりも大幅に優れていたことがわかった。
- 参考スコア(独自算出の注目度): 51.01447538245441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent generative video models achieve impressive visual quality but remain constrained by limited physical consistency and controllability. Existing video generation methods provide minimal physical control, and single-image-to-3D conversion approaches often suffer from object interpenetration. Furthermore, physics-based scene-level 3D generation methods exhibit spatial misalignment, stylized artifacts, and inconsistencies with the input data, restricting their use in realistic interactive video synthesis. We propose TelePhysics, a training-free framework that converts a single image into a physically consistent and controllable video through holistic scene-level 3D reconstruction. By representing the full scene geometry in a unified spatial coordinate system, TelePhysics resolves object penetration and alignment ambiguity. Unlike prior methods, this formulation enables accurate scenelevel multi-object interactions and introduces richer, complex control types for advanced mechanicsbased manipulation. By decoupling simulation from rendering, TelePhysics bypasses latency-heavy priors, achieving real-time physical interaction previews paired while preserving photorealistic visual fidelity. Experimental results demonstrate that TelePhysics substantially outperforms prior methods in physical fidelity, spatial coherence, and controllability. The open-source code is available at https://github.com/xinzhang007/TelePhysics.
- Abstract(参考訳): 最近の生成ビデオモデルは、印象的な視覚的品質を達成するが、物理的な一貫性と制御性に制限される。
既存のビデオ生成方式は最小限の物理制御を提供し、単一画像から3D変換方式はオブジェクトの相互接続に悩まされることが多い。
さらに、物理に基づくシーンレベルの3D生成手法では、空間的ミスアライメント、スタイル化されたアーティファクト、入力データとの整合性が示され、リアルなインタラクティブなビデオ合成における使用が制限される。
本研究では,TelePhysicsを提案する。TelePhysicsは,総合的なシーンレベルの3D再構成によって,単一の画像を物理的に一貫した制御可能なビデオに変換する,トレーニング不要のフレームワークである。
空間座標系で全シーンの幾何学を表現することで、TelePhysicsは物体の侵入とアライメントのあいまいさを解消する。
従来の手法とは異なり、この定式化は正確なシーンレベルの複数オブジェクトの相互作用を可能にし、高度な力学に基づく操作のためのよりリッチで複雑な制御タイプを導入している。
シミュレーションをレンダリングから切り離すことで、TelePhysicsは遅延重みを回避し、フォトリアリスティックな視覚的忠実さを維持しながら、リアルタイムの物理的相互作用プレビューを実現する。
実験結果から,TelePhysicsは物理的忠実度,空間コヒーレンス,制御性において,従来手法よりも大幅に優れていた。
オープンソースコードはhttps://github.com/xinzhang007/TelePhysics.comで公開されている。
関連論文リスト
- PhysLayer: Language-Guided Layered Animation with Depth-Aware Physics [17.206634450299536]
既存の画像から映像への生成法は、しばしば物理的に不可解な動きを生じさせ、オブジェクトのダイナミクスを正確に制御することができない。
静的画像の言語誘導・深度認識層アニメーションを可能にする新しいフレームワークであるPhysLayerを紹介した。
論文 参考訳(メタデータ) (2026-04-26T07:29:13Z) - PhysAlign: Physics-Coherent Image-to-Video Generation through Feature and 3D Representation Alignment [23.066204478030627]
ビデオモデル(VDM)は、動的なシーンや環境をシミュレートするための有望なアプローチを提供する。
既存のモデルは、しばしば基本的な物理的直観に反する時間的に一貫性のないコンテンツを生成する。
物理コヒーレントな画像対ビデオI(2V)生成のための効率的なフレームワークであるPhysAlignを提案する。
論文 参考訳(メタデータ) (2026-03-14T05:44:18Z) - Physical Simulator In-the-Loop Video Generation [96.87054314612142]
Physical Simulator In-the-loop Video Generation (PSIVG)は、物理シミュレータをビデオ拡散プロセスに統合する新しいフレームワークである。
PSIVGは、視覚的品質と多様性を保ちながら、現実世界の物理に忠実なビデオを制作する。
論文 参考訳(メタデータ) (2026-03-06T15:48:25Z) - PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding [50.454084539837005]
PhysChoreoは、単一の画像から多様な制御性と物理的なリアリズムを持つビデオを生成する新しいフレームワークである。
本手法は2つの段階から構成される: まず, 画像中の全ての物体の静的初期特性を, 部分認識の物理的特性再構成により推定する。
そして、時間的に指示され、物理的に編集可能なシミュレーションを通じて、リッチな動的な振る舞いと物理的なリアリズムで高品質な動画を合成する。
論文 参考訳(メタデータ) (2025-11-25T17:59:04Z) - PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [53.06495362038348]
既存の世代モデルは、テキストや画像から写真リアリスティックなビデオを作るのに優れているが、物理的な可視性と3D制御性に欠けることが多い。
本稿では物理パラメータと力制御を備えた物理地上画像生成のための新しいフレームワークであるPhysCtrlを紹介する。
実験によると、PhysCtrlは現実的な物理地上の運動軌跡を生成し、画像とビデオのモデルを駆動する際に高忠実で制御可能なビデオを生成する。
論文 参考訳(メタデータ) (2025-09-24T17:58:04Z) - Trajectory Optimization for Physics-Based Reconstruction of 3d Human
Pose from Monocular Video [31.96672354594643]
本研究は,単眼映像から身体的に可視な人間の動きを推定する作業に焦点をあてる。
物理を考慮しない既存のアプローチは、しばしば運動人工物と時間的に矛盾した出力を生み出す。
提案手法は,Human3.6Mベンチマークにおける既存の物理法と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-24T18:02:49Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。