論文の概要: PhysTalk: Language-driven Real-time Physics in 3D Gaussian Scenes
- arxiv url: http://arxiv.org/abs/2512.24986v1
- Date: Wed, 31 Dec 2025 17:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.724814
- Title: PhysTalk: Language-driven Real-time Physics in 3D Gaussian Scenes
- Title(参考訳): PhysTalk:3Dガウスシーンにおける言語駆動のリアルタイム物理
- Authors: Luca Collorone, Mert Kiray, Indro Spinelli, Fabio Galasso, Benjamin Busam,
- Abstract要約: PhysTalkは入力として3D Gaussian Splatting (3DGS)のシーンを、任意のユーザがリアルタイムで物理ベースのインタラクティブな4Dアニメーションにプロンプトする。
特に、PhysTalkは、3DGSを物理シミュレータと直接結合する最初のフレームワークであり、メッシュ抽出に要する時間に依存しない。
これにより、4Dアニメーションが広くアクセス可能になり、これらを"レンダリングと待機"パラダイムから、現代的な物理インフォームドパイプラインとの対話へとシフトする。
- 参考スコア(独自算出の注目度): 24.89824145019983
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Realistic visual simulations are omnipresent, yet their creation requires computing time, rendering, and expert animation knowledge. Open-vocabulary visual effects generation from text inputs emerges as a promising solution that can unlock immense creative potential. However, current pipelines lack both physical realism and effective language interfaces, requiring slow offline optimization. In contrast, PhysTalk takes a 3D Gaussian Splatting (3DGS) scene as input and translates arbitrary user prompts into real time, physics based, interactive 4D animations. A large language model (LLM) generates executable code that directly modifies 3DGS parameters through lightweight proxies and particle dynamics. Notably, PhysTalk is the first framework to couple 3DGS directly with a physics simulator without relying on time consuming mesh extraction. While remaining open vocabulary, this design enables interactive 3D Gaussian animation via collision aware, physics based manipulation of arbitrary, multi material objects. Finally, PhysTalk is train-free and computationally lightweight: this makes 4D animation broadly accessible and shifts these workflows from a "render and wait" paradigm toward an interactive dialogue with a modern, physics-informed pipeline.
- Abstract(参考訳): リアルな視覚シミュレーションは全裸だが、その生成には計算時間、レンダリング、エキスパートアニメーションの知識が必要である。
テキスト入力から生成されるオープン語彙の視覚効果は、巨大な創造的可能性を解き明かす、有望なソリューションとして現れます。
しかし、現在のパイプラインには物理リアリズムと効果的な言語インターフェースが欠如しており、オフラインの最適化が遅い。
対照的に、PhysTalkは3Dガウス(3DGS)シーンを入力として、任意のユーザープロンプトをリアルタイム、物理ベース、インタラクティブな4Dアニメーションに変換する。
大規模言語モデル(LLM)は、3DGSパラメータを直接変更する実行可能なコードを生成する。
特に、PhysTalkは、3DGSを物理シミュレータと直接結合する最初のフレームワークであり、メッシュ抽出に要する時間に依存しない。
オープンな語彙を維持しながら、衝突認識による対話型3次元ガウスアニメーション、物理に基づく任意の多物質物体の操作を可能にする。
そして最後に、PhysTalkは、トレインフリーで計算量的に軽量である。これにより、4Dアニメーションが広くアクセス可能になり、これらのワークフローを"レンダリングと待機"パラダイムから、現代的な物理インフォームトパイプラインとの対話へとシフトする。
関連論文リスト
- PAT3D: Physics-Augmented Text-to-3D Scene Generation [47.18949891825537]
PAT3Dは3Dオブジェクトを生成し、それらの空間的関係を推測し、それらを階層的なシーンツリーに整理する。
微分可能な剛体シミュレータは、重力下での現実的な物体の相互作用を保証する。
実験により、PAT3Dは、物理的妥当性、意味的一貫性、視覚的品質において、従来のアプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-11-26T23:23:58Z) - Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets [63.67760219308476]
シミュレーション可能な3Dアセットを単一画像から生成する基礎モデルであるSeed3D 1.0を提案する。
既存の3D生成モデルとは異なり、我々のシステムは正確な幾何学、よく整合したテクスチャ、リアルな物理的基盤を持つ資産を生産する。
論文 参考訳(メタデータ) (2025-10-22T18:16:32Z) - PromptVFX: Text-Driven Fields for Open-World 3D Gaussian Animation [49.91188543847175]
フィールド予測タスクとして3Dアニメーションを再構成し、3Dガウスに作用する時間変化の4Dフロー場を推定するテキスト駆動フレームワークを導入する。
大規模言語モデル(LLM)と視覚言語モデル(VLM)を関数生成に活用することにより,任意のプロンプトを解釈し,色,不透明度,位置をリアルタイムで更新する。
論文 参考訳(メタデータ) (2025-06-01T17:22:59Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - Feature Splatting: Language-Driven Physics-Based Scene Synthesis and Editing [11.46530458561589]
物理に基づく動的シーン合成をリッチなセマンティクスと統合する手法であるFeature Splattingを導入する。
私たちの最初の貢献は、高品質でオブジェクト中心の視覚言語機能を3Dガウスに抽出する方法です。
2つ目の貢献は、粒子ベースのシミュレーターを用いて、他の静的シーンから物理ベースのダイナミクスを合成する方法である。
論文 参考訳(メタデータ) (2024-04-01T16:31:04Z) - Learning 3D Particle-based Simulators from RGB-D Videos [15.683877597215494]
本研究では,シミュレータを直接観測から学習する手法を提案する。
視覚粒子ダイナミクス(VPD)は、3Dシーンの潜在粒子ベースの表現を共同で学習する。
既存の2Dビデオ予測モデルとは異なり、VPDの3D構造はシーン編集と長期予測を可能にする。
論文 参考訳(メタデータ) (2023-12-08T20:45:34Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。