論文の概要: PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglement
- arxiv url: http://arxiv.org/abs/2512.04532v1
- Date: Thu, 04 Dec 2025 07:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.046249
- Title: PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglement
- Title(参考訳): PhyVLLM:物理誘導型動画像言語モデル
- Authors: Yu-Wei Zhan, Xin Wang, Hong Chen, Tongtong Feng, Wei Feng, Ren Wang, Guangyao Li, Qing Li, Wenwu Zhu,
- Abstract要約: ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、幅広いビデオ言語タスクにおいて印象的なパフォーマンスを示している。
本稿では,物理動作をビデオLLMに明示的に組み込む物理誘導型ビデオ言語フレームワークであるPhyVLLMを提案する。
本稿では,PhyVLLMが物理推論と一般的なビデオ理解の両タスクにおいて,最先端のビデオLLMを著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 45.990473754456104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Language Models (Video LLMs) have shown impressive performance across a wide range of video-language tasks. However, they often fail in scenarios requiring a deeper understanding of physical dynamics. This limitation primarily arises from their reliance on appearance-based matching. Incorporating physical motion modeling is crucial for deeper video understanding, but presents three key challenges: (1) motion signals are often entangled with appearance variations, making it difficult to extract clean physical cues; (2) effective motion modeling requires not only continuous-time motion representations but also capturing physical dynamics; and (3) collecting accurate annotations for physical attributes is costly and often impractical. To address these issues, we propose PhyVLLM, a physical-guided video-language framework that explicitly incorporates physical motion into Video LLMs. Specifically, PhyVLLM disentangles visual appearance and object motion through a dual-branch encoder. To model physical dynamics over time, we incorporate a Neural Ordinary Differential Equation (Neural ODE) module, which generates differentiable physical dynamic representations. The resulting motion-aware representations are projected into the token space of a pretrained LLM, enabling physics reasoning without compromising the model's original multimodal capabilities. To circumvent the need for explicit physical labels, PhyVLLM employs a self-supervised manner to model the continuous evolution of object motion. Experimental results demonstrate that PhyVLLM significantly outperforms state-of-the-art Video LLMs on both physical reasoning and general video understanding tasks, highlighting the advantages of incorporating explicit physical modeling.
- Abstract(参考訳): ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、幅広いビデオ言語タスクにおいて印象的なパフォーマンスを示している。
しかし、物理力学の深い理解を必要とするシナリオでは失敗することが多い。
この制限は主に外見に基づくマッチングに依存することから生じる。
物理モーションモデリングを組み込むことは、より深い映像理解に不可欠であるが、(1)動き信号が外見の変化と絡み合うことが多く、清潔な物理的手がかりの抽出が困難であること、(2)効果的な動きモデリングには、連続的な時間運動表現だけでなく、物理的なダイナミクスのキャプチャも必要であること、(3)物理的属性の正確なアノテーションの収集はコストがかかり、しばしば非現実的であること、の3つの重要な課題が提示される。
これらの課題に対処するため,ビデオLLMに物理モーションを明示的に組み込む物理誘導型ビデオ言語フレームワークであるPhyVLLMを提案する。
具体的には、PhyVLLMはデュアルブランチエンコーダを通して視覚的外観と物体の動きを歪めます。
物理力学を時間とともにモデル化するために,ニューラル正規微分方程式(Neural Ordinary Differential Equation,Neural ODE)モジュールを組み込んだ。
結果として得られる動き認識表現は、事前訓練されたLLMのトークン空間に投影され、モデルの元々のマルチモーダル能力を損なうことなく、物理推論を可能にする。
明示的な物理ラベルの必要性を回避するために、PhyVLLMは、オブジェクトの動きの連続的な進化をモデル化するために、自己監督的な方法を採用している。
実験結果から,PhyVLLMは物理推論と一般的なビデオ理解の両タスクにおいて,最先端のビデオLLMよりも有意に優れており,明示的な物理モデリングを取り入れた利点が浮き彫りにされている。
関連論文リスト
- TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - Inferring Dynamic Physical Properties from Video Foundation Models [94.35979242947873]
ビデオから動的物理特性を予測するタスクについて検討する。
時間的情報を必要とする物理的特性として,バウンディング物体の弾性,流動液体の粘度,表面を滑り落ちる物体の動的摩擦について考察する。
論文 参考訳(メタデータ) (2025-10-02T17:59:50Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - PhyMAGIC: Physical Motion-Aware Generative Inference with Confidence-guided LLM [17.554471769834453]
一つの画像から物理的に一貫した動きを生成するトレーニング不要のフレームワークであるPhyMAGICを提案する。
PhyMAGICは、事前訓練された画像間拡散モデル、LDMによる信頼誘導推論、微分可能な物理シミュレータを統合する。
総合的な実験により、PhyMAGICは最先端のビデオジェネレータや物理対応のベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-05-22T09:40:34Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。