論文の概要: PhysID: Physics-based Interactive Dynamics from a Single-view Image
- arxiv url: http://arxiv.org/abs/2506.17746v1
- Date: Sat, 21 Jun 2025 15:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.563974
- Title: PhysID: Physics-based Interactive Dynamics from a Single-view Image
- Title(参考訳): PhysID:シングルビュー画像からの物理に基づくインタラクティブダイナミクス
- Authors: Sourabh Vasant Gothe, Ayon Chattopadhyay, Gunturi Venkata Sai Phani Kiran, Pratik, Vibhav Agarwal, Jayesh Rajkumar Vachhani, Sourav Ghosh, Parameswaranath VM, Barath Raj KR,
- Abstract要約: 単一視点画像から物理に基づくインタラクティブなダイナミクスの作成を効率化するPhysIDを提案する。
物理的に妥当なリアルタイムレンダリングを実現するために,デバイス上の物理ベースのエンジンをユーザインタラクションと統合する。
- 参考スコア(独自算出の注目度): 1.7214450148288793
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transforming static images into interactive experiences remains a challenging task in computer vision. Tackling this challenge holds the potential to elevate mobile user experiences, notably through interactive and AR/VR applications. Current approaches aim to achieve this either using pre-recorded video responses or requiring multi-view images as input. In this paper, we present PhysID, that streamlines the creation of physics-based interactive dynamics from a single-view image by leveraging large generative models for 3D mesh generation and physical property prediction. This significantly reduces the expertise required for engineering-intensive tasks like 3D modeling and intrinsic property calibration, enabling the process to be scaled with minimal manual intervention. We integrate an on-device physics-based engine for physically plausible real-time rendering with user interactions. PhysID represents a leap forward in mobile-based interactive dynamics, offering real-time, non-deterministic interactions and user-personalization with efficient on-device memory consumption. Experiments evaluate the zero-shot capabilities of various Multimodal Large Language Models (MLLMs) on diverse tasks and the performance of 3D reconstruction models. These results demonstrate the cohesive functioning of all modules within the end-to-end framework, contributing to its effectiveness.
- Abstract(参考訳): 静的画像をインタラクティブな体験に変換することは、コンピュータビジョンにおいて難しい課題である。
この課題に取り組むことは、特にインタラクティブなAR/VRアプリケーションを通じて、モバイルユーザエクスペリエンスを向上する可能性を秘めている。
現在のアプローチでは、事前に録音されたビデオ応答か、複数ビューイメージを入力として必要とするかのいずれかを用いてこれを実現しようとしている。
本稿では、3次元メッシュ生成と物理特性予測のための大規模生成モデルを活用することにより、単一視点画像から物理に基づくインタラクティブなダイナミクスの作成を効率化するPhysIDを提案する。
これにより、3Dモデリングや固有のプロパティキャリブレーションといったエンジニアリング集約的なタスクに必要な専門知識が大幅に削減され、手作業による介入を最小限に抑えることができる。
物理的に妥当なリアルタイムレンダリングを実現するために,デバイス上の物理ベースのエンジンをユーザインタラクションと統合する。
PhysIDは、リアルタイムで非決定論的インタラクションと、デバイス上での効率的なメモリ消費によるユーザ個人化を提供する、モバイルベースのインタラクティブなダイナミクスの飛躍的な進歩を表している。
MLLM(Multimodal Large Language Models)のゼロショット機能について,様々なタスクと3次元再構成モデルの性能評価を行った。
これらの結果は、エンドツーエンドフレームワーク内のすべてのモジュールの凝集機能を実証し、その有効性に寄与する。
関連論文リスト
- PhysiInter: Integrating Physical Mapping for High-Fidelity Human Interaction Generation [35.563978243352764]
人間のインタラクション生成パイプライン全体に統合された物理マッピングを導入する。
具体的には、物理に基づくシミュレーション環境での運動模倣は、ターゲットの動きを物理的に有効な空間に投影するために使用される。
実験の結果,人間の運動の質は3%~89%向上した。
論文 参考訳(メタデータ) (2025-06-09T06:04:49Z) - MAGIC: Motion-Aware Generative Inference via Confidence-Guided LLM [14.522189177415724]
MAGICは、シングルイメージの物理特性推論と動的生成のためのトレーニング不要のフレームワークである。
本フレームワークは,静止画像からモーションリッチな映像を生成し,信頼度に基づくフィードバックループを通じて視覚と身体のギャップを埋める。
実験の結果,MAGICは既存の物理認識生成手法よりも精度が高く,時間的コヒーレンスも高いことがわかった。
論文 参考訳(メタデータ) (2025-05-22T09:40:34Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation [62.53760963292465]
PhysDreamerは物理に基づくアプローチで、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える。
本稿では, 弾性物体の多様な例について考察し, ユーザスタディを通じて合成された相互作用の現実性を評価する。
論文 参考訳(メタデータ) (2024-04-19T17:41:05Z) - DROP: Dynamics Responses from Human Motion Prior and Projective Dynamics [21.00283279991885]
DROPは、生成的mOtionと射影力学を用いた人間のダイナミクス応答をモデリングするための新しいフレームワークである。
様々な動作タスクや様々な物理的摂動にまたがってモデルを広範囲に評価し、応答のスケーラビリティと多様性を実証する。
論文 参考訳(メタデータ) (2023-09-24T20:25:59Z) - ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。
TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。
我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文 参考訳(メタデータ) (2020-07-09T17:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。