Fugu-MT 論文翻訳(概要): PhysVid: Physics Aware Local Conditioning for Generative Video Models

論文の概要: PhysVid: Physics Aware Local Conditioning for Generative Video Models

arxiv url: http://arxiv.org/abs/2603.26285v2
Date: Mon, 30 Mar 2026 01:27:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 13:48:18.842278
Title: PhysVid: Physics Aware Local Conditioning for Generative Video Models
Title（参考訳）: PhysVid: 生成ビデオモデルのためのローカルコンディショニングを物理が意識する
Authors: Saurabh Pathak, Elahe Arani, Mykola Pechenizkiy, Bahram Zonooz,
Abstract要約: PhysVidは物理を意識した局所的条件付けスキームで、時間的に連続したフレームの塊上で動作する。 VideoPhyでは、PhysVidは物理コモンセンススコアを、ベースラインビデオジェネレータで$approx 33%で改善している。
参考スコア（独自算出の注目度）: 46.61029355545099
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative video models achieve high visual fidelity but often violate basic physical principles, limiting reliability in real-world settings. Prior attempts to inject physics rely on conditioning: frame-level signals are domain-specific and short-horizon, while global text prompts are coarse and noisy, missing fine-grained dynamics. We present PhysVid, a physics-aware local conditioning scheme that operates over temporally contiguous chunks of frames. Each chunk is annotated with physics-grounded descriptions of states, interactions, and constraints, which are fused with the global prompt via chunk-aware cross-attention during training. At inference, we introduce negative physics prompts (descriptions of locally relevant law violations) to steer generation away from implausible trajectories. On VideoPhy, PhysVid improves physical commonsense scores by $\approx 33\%$ over baseline video generators, and by up to $\approx 8\%$ on VideoPhy2. These results show that local, physics-aware guidance substantially increases physical plausibility in generative video and marks a step toward physics-grounded video models.
Abstract（参考訳）: 生成ビデオモデルは高い視覚的忠実性を達成するが、しばしば基本的な物理原理に反し、現実世界の設定における信頼性を制限する。フレームレベルの信号はドメイン固有で短水平であり、グローバルなテキストプロンプトは粗くノイズが多く、きめ細かなダイナミクスが欠けている。本稿では、時間的に連続したフレームのチャンク上で動作する物理を意識した局所条件付きスキームPhysVidを提案する。各チャンクには、物理的な状態、相互作用、制約の記述が注釈付けされ、トレーニング中にチャンク認識のクロスアテンションを通じてグローバルなプロンプトと融合する。推論では, 負の物理的プロンプト(局所的関連法違反の記述)を導入し, 不可解な軌跡から退避させる。 VideoPhyでは、PhysVidが物理コモンセンススコアを、ベースラインビデオジェネレータで$\approx 33\%、VideoPhy2で$\approx 8\%で改善している。これらの結果から, 局所的物理認識誘導は生成ビデオの物理的妥当性を著しく向上させ, 物理グラウンドドビデオモデルへの一歩を踏み出した。

関連論文リスト

Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning [77.34919361116037]
ビデオ生成モデルは、ストーリーテリング、シミュレーション、エンボディドAIのための世界シミュレータとして、ますます使われている。既存の評価は、自動化されたメトリクスや、好みやルーリックベースのチェックのような粗い人間の判断に大きく依存している。 5つの最先端モデルによって生成されたビデオにおいて、物理的リアリズムの失敗を診断するための専門家による推論のベンチマークであるPhyllon-Evalを紹介する。
論文参考訳（メタデータ） (2026-03-20T03:25:41Z)
PhysVideo: Physically Plausible Video Generation with Cross-View Geometry Guidance [31.104339154260312]
物理対応ビデオを生成するフレームワークであるPhysVideoを提案する。第一段階では、Phys4Viewは運動力学における物理的属性の影響を捉え、空間的時間的一貫性を高める。第2段階では、生成した動画をガイダンスとして使用し、制御可能なビデオ合成のための前景ダイナミクスと背景コンテキストの相互作用を学習する。
論文参考訳（メタデータ） (2026-03-19T09:03:06Z)
PhysAlign: Physics-Coherent Image-to-Video Generation through Feature and 3D Representation Alignment [23.066204478030627]
ビデオモデル(VDM)は、動的なシーンや環境をシミュレートするための有望なアプローチを提供する。既存のモデルは、しばしば基本的な物理的直観に反する時間的に一貫性のないコンテンツを生成する。物理コヒーレントな画像対ビデオI(2V)生成のための効率的なフレームワークであるPhysAlignを提案する。
論文参考訳（メタデータ） (2026-03-14T05:44:18Z)
Physical Simulator In-the-Loop Video Generation [96.87054314612142]
Physical Simulator In-the-loop Video Generation (PSIVG)は、物理シミュレータをビデオ拡散プロセスに統合する新しいフレームワークである。 PSIVGは、視覚的品質と多様性を保ちながら、現実世界の物理に忠実なビデオを制作する。
論文参考訳（メタデータ） (2026-03-06T15:48:25Z)
PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning [49.88366485306749]
現代のビデオ生成モデルは、視覚的にリアルなビデオを生成することができるが、物理法則に従わないことが多い。本稿では,物理認識力を高めるため,映像生成モデルを導くための表現として,物理知識を捉えたPhysMasterを提案する。
論文参考訳（メタデータ） (2025-10-15T17:59:59Z)
PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [53.06495362038348]
既存の世代モデルは、テキストや画像から写真リアリスティックなビデオを作るのに優れているが、物理的な可視性と3D制御性に欠けることが多い。本稿では物理パラメータと力制御を備えた物理地上画像生成のための新しいフレームワークであるPhysCtrlを紹介する。実験によると、PhysCtrlは現実的な物理地上の運動軌跡を生成し、画像とビデオのモデルを駆動する際に高忠実で制御可能なビデオを生成する。
論文参考訳（メタデータ） (2025-09-24T17:58:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。