論文の概要: TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility
- arxiv url: http://arxiv.org/abs/2510.07550v1
- Date: Wed, 08 Oct 2025 21:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.735917
- Title: TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility
- Title(参考訳): TRAVL:物理不明瞭な判断をより良いビデオ言語モデルにするためのレシピ
- Authors: Saman Motamed, Minghao Chen, Luc Van Gool, Iro Laina,
- Abstract要約: ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
- 参考スコア(独自算出の注目度): 70.24211591214528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite impressive visual fidelity, modern video generative models frequently produce sequences that violate intuitive physical laws, such as objects floating, teleporting, or morphing in ways that defy causality. While humans can easily detect such implausibilities, there remains no robust method for quantitatively assessing physical realism in video. In this work, we explore whether Video-Language Models (VLMs) can be trained to serve as reliable judges of physical plausibility. We find that existing VLMs struggle to identify physics violations, exposing fundamental limitations in their temporal and causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe that combines a balanced training dataset with a trajectory-aware attention module to improve motion encoding and discrimination in VLMs. To evaluate physical reasoning more rigorously, we propose ImplausiBench, a benchmark of 300 videos (150 real, 150 generated) that removes linguistic biases and isolates visual-temporal understanding. Performance is reported both with gold-standard human judgments and stricter LLM-as-judge metrics. Together, TRAVL and ImplausiBench offer a unified framework for probing and improving physical plausibility in multimodal models, shedding light on a challenging and underexplored aspect of visual-temporal understanding.
- Abstract(参考訳): 印象的な視覚的忠実さにもかかわらず、現代のビデオ生成モデルは、しばしば、因果性に反する方法で浮かんだり、テレポートしたり、モーフィングしたりするような直感的な物理法則に反するシーケンスを生成する。
人間はそのような不確実性を容易に検出できるが、ビデオの物理的リアリズムを定量的に評価するための堅牢な手法はいまだに存在しない。
本研究では,VLM(Video-Language Models)をトレーニングして,身体的妥当性の信頼性を判断する方法について検討する。
既存のVLMは物理違反の特定に苦慮し、時間的・因果的推論の基本的制約を明らかにしている。
そこで本研究では,バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせ,VLMの動作符号化と識別を改善するための微調整レシピであるTRAVLを紹介する。
身体的推論をより厳密に評価するために,300本のビデオ(実写150本,生成150本)のベンチマークであるImplausiBenchを提案する。
金本位人間判定とより厳格なLCM-as-judge測定の両方で性能が報告される。
TRAVLとImplausiBenchは、マルチモーダルモデルにおける物理的可視性を探索し改善するための統一的なフレームワークを提供し、視覚的時間的理解の難しさと過小評価の側面に光を当てる。
関連論文リスト
- Enhancing Physical Plausibility in Video Generation by Reasoning the Implausibility [37.011366226968]
拡散モデルはリアルなビデオを生成することができるが、既存の方法は大規模テキストビデオデータセットから暗黙的に物理的推論を学ぶことに依存している。
本研究では,推論時の身体的可視性を改善するためのトレーニングフリーフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T12:32:54Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - PhyMAGIC: Physical Motion-Aware Generative Inference with Confidence-guided LLM [17.554471769834453]
一つの画像から物理的に一貫した動きを生成するトレーニング不要のフレームワークであるPhyMAGICを提案する。
PhyMAGICは、事前訓練された画像間拡散モデル、LDMによる信頼誘導推論、微分可能な物理シミュレータを統合する。
総合的な実験により、PhyMAGICは最先端のビデオジェネレータや物理対応のベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-05-22T09:40:34Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [9.474337395173388]
視覚言語モデル(VLM)における物理推論の課題
ファインチューニングは大きなモデルでは高価であり、すべてのタスクで繰り返し実行できない。
我々は,物理シーンの詳細な記述を生成するために,特殊なVLMを微調整した新しいモジュラーフレームワークであるPhysical Context Builders (PCBs)を紹介した。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。