Fugu-MT 論文翻訳(概要): PhysLayer: Language-Guided Layered Animation with Depth-Aware Physics

論文の概要: PhysLayer: Language-Guided Layered Animation with Depth-Aware Physics

arxiv url: http://arxiv.org/abs/2604.23574v1
Date: Sun, 26 Apr 2026 07:29:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:07.440158
Title: PhysLayer: Language-Guided Layered Animation with Depth-Aware Physics
Title（参考訳）: PhysLayer:Depth-Aware Physicsを使った言語ガイド型レイヤーアニメーション
Authors: Tianyidan Xie, Zhentao Huang, Mingjie Wang, Xin Huang, Jun Zhou, Minglun Gong, Zili Yi,
Abstract要約: 既存の画像から映像への生成法は、しばしば物理的に不可解な動きを生じさせ、オブジェクトのダイナミクスを正確に制御することができない。静的画像の言語誘導・深度認識層アニメーションを可能にする新しいフレームワークであるPhysLayerを紹介した。
参考スコア（独自算出の注目度）: 17.206634450299536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing image-to-video generation methods often produce physically implausible motions and lack precise control over object dynamics. While prior approaches have incorporated physics simulators, they remain confined to 2D planar motions and fail to capture depth-aware spatial interactions. We introduce PhysLayer, a novel framework enabling language-guided, depth-aware layered animation of static images. PhysLayer consists of three key components: First, a language-guided scene understanding module that utilizes vision foundation models to decompose scenes into depth-based layers by analyzing object composition, material properties, and physical parameters. Second, a depth-aware layered physics simulation that extends 2D rigid-body dynamics with depth motion and perspective-consistent scaling, enabling more realistic object interactions without requiring full 3D reconstruction. Third, a physics-guided video synthesis module that integrates simulated trajectories with scene-aware relighting for temporally coherent results. Experimental results demonstrate improvements in CLIP-Similarity (+2.2\%), FID score (+9.3\%), and Motion-FID (+3\%), with human evaluation showing enhanced physical plausibility (+24\%) and text-video alignment (+35\%). Our approach provides a practical balance between physical realism and computational efficiency for controllable image animation.
Abstract（参考訳）: 既存の画像から映像への生成法は、しばしば物理的に不可解な動きを生じさせ、オブジェクトのダイナミクスを正確に制御することができない。従来のアプローチでは物理シミュレータが組み込まれていたが、2次元平面運動に限定されており、深度対応の空間相互作用を捉えることができない。静的画像の言語誘導・深度認識層アニメーションを可能にする新しいフレームワークであるPhysLayerを紹介した。 PhysLayerは3つの重要なコンポーネントで構成されている。第一に、視覚基盤モデルを利用して、オブジェクトの組成、材料特性、物理パラメータを分析してシーンを深度ベースの層に分解する言語誘導のシーン理解モジュール。第二に、深度を意識した層状物理シミュレーションにより、2次元剛体力学を深度運動と遠近性スケーリングで拡張し、完全な3次元再構成を必要とせずにより現実的な物体の相互作用を可能にする。第3に、シミュレートされた軌跡とシーン認識リライティングを統合した物理誘導ビデオ合成モジュール。 CLIP-Similarity(+2.2\%)、FIDスコア(+9.3\%)、Motion-FID(+3\%)が改善された。本手法は,制御可能な画像アニメーションにおける物理リアリズムと計算効率の現実的なバランスを与える。

関連論文リスト

MotionPhysics: Learnable Motion Distillation for Text-Guided Simulation [25.78198969054392]
MotionPhysicsは、ユーザが提供する自然言語プロンプトから妥当な物理パラメータを推論するエンドツーエンドの微分可能なフレームワークである。我々は30以上のシナリオでMotionPhysicsを評価し、実世界、人間設計、AIによって生成された3Dオブジェクトを含む。
論文参考訳（メタデータ） (2026-01-01T22:56:37Z)
PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding [50.454084539837005]
PhysChoreoは、単一の画像から多様な制御性と物理的なリアリズムを持つビデオを生成する新しいフレームワークである。本手法は2つの段階から構成される: まず, 画像中の全ての物体の静的初期特性を, 部分認識の物理的特性再構成により推定する。そして、時間的に指示され、物理的に編集可能なシミュレーションを通じて、リッチな動的な振る舞いと物理的なリアリズムで高品質な動画を合成する。
論文参考訳（メタデータ） (2025-11-25T17:59:04Z)
PhysHMR: Learning Humanoid Control Policies from Vision for Physically Plausible Human Motion Reconstruction [52.44375492811009]
物理学に基づくシミュレーターにおいて,ヒューマノイド制御のための視覚行動ポリシーを学習する統合フレームワークであるPhysHMRを提案する。我々のアプローチの重要な要素はピクセル・アズ・レイ戦略であり、2次元のキーポイントを3次元空間に上げ、それらを大域空間に変換する。 PhysHMRは多種多様なシナリオにまたがって高忠実で物理的に妥当な動きを生じさせ、視覚的精度と身体的リアリズムの両方において以前のアプローチより優れている。
論文参考訳（メタデータ） (2025-10-02T21:01:11Z)
PhysGen3D: Crafting a Miniature Interactive World from a Single Image [31.41059199853702]
PhysGen3Dは、単一の画像をアモーダルでカメラ中心のインタラクティブな3Dシーンに変換する新しいフレームワークだ。中心となるPhysGen3Dは、物体の3D形状、ポーズ、物理的および照明特性を推定する。我々はPhysGen3Dの性能を、Pika、Kling、Gen-3など、クローズド・ソース・オブ・ザ・アート(SOTA)画像・ビデオモデルと比較した。
論文参考訳（メタデータ） (2025-03-26T17:31:04Z)
Efficient Physics Simulation for 3D Scenes via MLLM-Guided Gaussian Splatting [32.846428862045634]
Sim Anythingは、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える物理ベースのアプローチである。人間の視覚的推論に触発されて,MLLMに基づく物理特性知覚を提案する。また、物理幾何学的適応サンプリングを用いて粒子をサンプリングして、オープンワールドシーンでオブジェクトをシミュレートする。
論文参考訳（メタデータ） (2024-11-19T12:52:21Z)
DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文参考訳（メタデータ） (2024-06-03T16:05:25Z)
DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-03-09T12:22:46Z)
Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文参考訳（メタデータ） (2020-04-30T19:35:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。