論文の概要: PhyDetEx: Detecting and Explaining the Physical Plausibility of T2V Models
- arxiv url: http://arxiv.org/abs/2512.01843v1
- Date: Mon, 01 Dec 2025 16:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.957424
- Title: PhyDetEx: Detecting and Explaining the Physical Plausibility of T2V Models
- Title(参考訳): PhyDetEx:T2Vモデルの物理的可塑性の検出と説明
- Authors: Zeqing Wang, Keze Wang, Lei Zhang,
- Abstract要約: VLM(Vision-Language Models)は、様々な応用において汎用評価器として広く使われている。
我々は,500本の注釈付きビデオと2,588本のペア付きビデオのテキストトレイン分割からなるtextbfPIDデータセットを構築した。
我々は、物理法則の遵守性を評価するために、最先端のT2Vモデルをベンチマークする。
- 参考スコア(独自算出の注目度): 16.658319622923553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by the growing capacity and training scale, Text-to-Video (T2V) generation models have recently achieved substantial progress in video quality, length, and instruction-following capability. However, whether these models can understand physics and generate physically plausible videos remains a question. While Vision-Language Models (VLMs) have been widely used as general-purpose evaluators in various applications, they struggle to identify the physically impossible content from generated videos. To investigate this issue, we construct a \textbf{PID} (\textbf{P}hysical \textbf{I}mplausibility \textbf{D}etection) dataset, which consists of a \textit{test split} of 500 manually annotated videos and a \textit{train split} of 2,588 paired videos, where each implausible video is generated by carefully rewriting the caption of its corresponding real-world video to induce T2V models producing physically implausible content. With the constructed dataset, we introduce a lightweight fine-tuning approach, enabling VLMs to not only detect physically implausible events but also generate textual explanations on the violated physical principles. Taking the fine-tuned VLM as a physical plausibility detector and explainer, namely \textbf{PhyDetEx}, we benchmark a series of state-of-the-art T2V models to assess their adherence to physical laws. Our findings show that although recent T2V models have made notable progress toward generating physically plausible content, understanding and adhering to physical laws remains a challenging issue, especially for open-source models. Our dataset, training code, and checkpoints are available at \href{https://github.com/Zeqing-Wang/PhyDetEx}{https://github.com/Zeqing-Wang/PhyDetEx}.
- Abstract(参考訳): キャパシティとトレーニングスケールによって駆動されるテキスト・ツー・ビデオ(T2V)生成モデルは、最近、ビデオの品質、長さ、命令追従能力を大幅に進歩させた。
しかし、これらのモデルが物理を理解でき、物理的にもっともらしいビデオを生成するかどうかはまだ疑問である。
Vision-Language Models (VLM) は様々なアプリケーションで汎用評価として広く使われているが、生成したビデオから物理的に不可能なコンテンツを特定するのに苦労している。
そこで本研究では,500本の手動アノテーション付きビデオの \textit{test split} と2,588本のペアビデオの \textit{train split} で構成され,対応する実世界のビデオのキャプションを注意深く書き直して,物理的に不明瞭なコンテンツを生成する T2V モデルを誘導する。
構築したデータセットでは、VLMが物理的に予測不能な事象を検出するだけでなく、違反した物理原理に関するテキストによる説明を生成できる軽量な微調整手法が導入された。
微調整されたVLMを物理可視性検出器および説明器、すなわちtextbf{PhyDetEx} として、我々は、物理法則への準拠性を評価するために、最先端のT2Vモデルシリーズをベンチマークする。
以上の結果から,近年のT2Vモデルは,物理的に妥当なコンテンツの生成に顕著な進歩を遂げているものの,物理法則の理解と定着は,特にオープンソースモデルでは難しい課題であることがわかった。
私たちのデータセット、トレーニングコード、チェックポイントは、 \href{https://github.com/Zeqing-Wang/PhyDetEx}{https://github.com/Zeqing-Wang/PhyDetEx}で利用可能です。
関連論文リスト
- Can Your Model Separate Yolks with a Water Bottle? Benchmarking Physical Commonsense Understanding in Video Generation Models [14.187604603759784]
本稿では,テキスト・ビデオ・システムの物理的推論能力を評価するためのベンチマークであるPhysVidBenchを紹介する。
各プロンプトに対して、さまざまな最先端モデルを用いてビデオを生成し、3段階評価パイプラインを採用する。
PhysVidBenchは、生成ビデオモデルにおける物理コモンセンスを評価するための構造化、解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-07-21T17:30:46Z) - VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models [53.204403109208506]
現在のテキスト・トゥ・ビデオ(T2V)モデルは、物理的にもっともらしいコンテンツを生成するのに苦労することが多い。
本稿では,基礎モデルから物理理解能力を抽出し,基礎モデルからT2Vモデルへ変換するビデオREPAを提案する。
論文 参考訳(メタデータ) (2025-05-29T17:06:44Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - TPA-Net: Generate A Dataset for Text to Physics-based Animation [27.544423833402572]
本稿では,多数のマルチモーダル3Dテキスト・ツー・ビデオ・シミュレーション(T2V/S)データとのギャップを狭めるために,自律データ生成手法とデータセットを提案する。
我々は, 弾性変形, 材料破壊, 衝突, 乱流など, 様々なシナリオをシミュレートするために, 最先端の物理シミュレーション手法を利用する。
高品質なマルチビューレンダリングビデオは、T2V、Neural Radiance Fields (NeRF)、その他のコミュニティの利益のために提供されている。
論文 参考訳(メタデータ) (2022-11-25T04:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。