Fugu-MT 論文翻訳(概要): PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

論文の概要: PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

arxiv url: http://arxiv.org/abs/2603.03505v1
Date: Tue, 03 Mar 2026 20:26:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.080509
Title: PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation
Title（参考訳）: PhyPrompt: 物理的に可塑性なテキスト・ビデオ生成のためのRLベースのプロンプトリファインメント
Authors: Shang Wu, Chenwei Xu, Zhuofan Xia, Weijian Li, Lie Lu, Pranav Maneriker, Fan Du, Manling Li, Han Liu,
Abstract要約: 最先端のテキスト・トゥ・ビデオ(T2V)ジェネレータは、視覚的品質が高いにもかかわらず、しばしば物理法則に違反している。これは、モデル制約よりもプロンプトにおける物理的制約が不十分であることに由来する。本稿では,2段階強化学習フレームワークであるPhyPromptを紹介する。
参考スコア（独自算出の注目度）: 30.68084292432211
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-of-the-art text-to-video (T2V) generators frequently violate physical laws despite high visual quality. We show this stems from insufficient physical constraints in prompts rather than model limitations: manually adding physics details reliably produces physically plausible videos, but requires expertise and does not scale. We present PhyPrompt, a two-stage reinforcement learning framework that automatically refines prompts for physically realistic generation. First, we fine-tune a large language model on a physics-focused Chain-of-Thought dataset to integrate principles like object motion and force interactions while preserving user intent. Second, we apply Group Relative Policy Optimization with a dynamic reward curriculum that initially prioritizes semantic fidelity, then progressively shifts toward physical commonsense. This curriculum achieves synergistic optimization: PhyPrompt-7B reaches 40.8\% joint success on VideoPhy2 (8.6pp gain), improving physical commonsense by 11pp (55.8\% to 66.8\%) while simultaneously increasing semantic adherence by 4.4pp (43.4\% to 47.8\%). Remarkably, our curriculum exceeds single-objective training on both metrics, demonstrating compositional prompt discovery beyond conventional multi-objective trade-offs. PhyPrompt outperforms GPT-4o (+3.8\% joint) and DeepSeek-V3 (+2.2\%, 100$\times$ larger) using only 7B parameters. The approach transfers zero-shot across diverse T2V architectures (Lavie, VideoCrafter2, CogVideoX-5B) with up to 16.8\% improvement, establishing that domain-specialized reinforcement learning with compositional curricula surpasses general-purpose scaling for physics-aware generation.
Abstract（参考訳）: 最先端のテキスト・トゥ・ビデオ(T2V)ジェネレータは、視覚的品質が高いにもかかわらず、しばしば物理法則に違反している。物理の詳細を手作業で手作業で加えると、物理的に妥当なビデオが確実に生成されるが、専門知識は必要であり、スケールしない。本稿では,2段階強化学習フレームワークであるPhyPromptを紹介する。まず、物理に焦点を当てたChain-of-Thoughtデータセット上の大きな言語モデルを微調整して、ユーザの意図を維持しながらオブジェクトの動きや強制的なインタラクションといった原則を統合する。第2に、グループ相対政策最適化を、当初は意味的忠実度を優先し、その後徐々に物理コモンセンスにシフトする動的報酬カリキュラムに応用する。 PhyPrompt-7B は VideoPhy2 (8.6pp利得) で 40.8\% のジョイント成功を達成し、物理コモンセンスを 11pp (55.8\% から 66.8\%) 向上させ、同時にセマンティックアテンデンスを 4.4pp (43.4\% から 47.8\%) 増加させた。また,本カリキュラムは,従来の多目的トレードオフを超越した構成的素早い発見を実証し,両指標の単目的学習を超越した。 PhyPrompt は GPT-4o (+3.8\% joint) と DeepSeek-V3 (+2.2\%, 100$\times$ larger) を 7B パラメータで上回る。このアプローチは、様々なT2Vアーキテクチャ(Lavie, VideoCrafter2, CogVideoX-5B)を最大16.8 %改善してゼロショットを転送する。

関連論文リスト

PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models [100.65199317765608]
物理原理は現実的な視覚シミュレーションには基本的だが、トランスフォーマーベースのビデオ生成において重要な監視対象である。本研究では,物理衝突ルールを高次元空間に直接適用した映像生成モデルのための物理認識強化学習パラダイムを提案する。このパラダイムを、MDcycle(Mimicry-Discovery Cycle)と呼ばれる統合フレームワークに拡張することで、大幅な微調整を可能にします。
論文参考訳（メタデータ） (2026-01-16T08:40:10Z)
Inference-time Physics Alignment of Video Generative Models with Latent World Models [28.62446995107834]
我々はWMRewardを導入し、推論時間アライメント問題としてビデオ生成の物理的妥当性を改善する。特に、潜在世界モデルに先立って強い物理を応用し、複数の候補の軌道を探索し、操舵する報奨として活用する。提案手法は,画像条件,マルチフレーム条件,テキスト条件による生成設定の物理的妥当性を大幅に向上させる。
論文参考訳（メタデータ） (2026-01-15T16:18:00Z)
PhysVideoGenerator: Towards Physically Aware Video Generation via Latent Physics Guidance [2.2606796828967823]
現在のビデオ生成モデルは高品質な美的ビデオを生成するが、現実の物理力学の表現を学ぶのに苦労することが多い。本稿では、ビデオ生成プロセスに先立って学習可能な物理を組み込む概念実証フレームワークであるPhysVideoGeneratorを提案する。本稿では,事前学習したビデオジョイント埋め込み予測アーキテクチャから抽出した高レベルな物理特徴を抑圧する軽量な予測器ネットワークPredictorPを紹介する。
論文参考訳（メタデータ） (2026-01-07T07:38:58Z)
PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation [47.091099927166375]
テキスト・ツー・ビデオ(T2V)生成の最近の進歩は、優れた視覚的品質を達成しているが、物理法則に忠実に従うビデオの合成は、依然としてオープンな課題である。本稿では、まず、視覚言語モデル(VLM)とチェーン・オブ・シント推論を利用して、大規模トレーニングデータセットPhyVidGen-135Kを収集する物理拡張ビデオデータ構築パイプラインPhyAugPipeを紹介する。次に、グループワイド・プラケット・Lucの上に構築されたPhyGDPOの原理を定式化する。
論文参考訳（メタデータ） (2025-12-31T01:19:14Z)
PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文参考訳（メタデータ） (2025-11-06T02:40:57Z)
Hierarchical Fine-grained Preference Optimization for Physically Plausible Video Generation [80.89133198952187]
PhysHPOは階層的クロスモーダル直接参照最適化のための新しいフレームワークである。物理的に妥当なビデオ生成のための微妙な好み調整を可能にする。また,PhysHPOは,高度なモデルの物理的妥当性と全体的な映像生成品質を著しく向上させることを示した。
論文参考訳（メタデータ） (2025-08-14T17:30:37Z)
Seedance 1.0: Exploring the Boundaries of Video Generation Models [71.26796999246068]
Seedance 1.0は高性能で推論効率の良いビデオ基盤生成モデルである。精度と意味のあるビデオキャプションを付加したマルチソースキュレーションデータを統合する。 Seedance 1.0は1080p解像度で5秒のビデオを生成することができる。
論文参考訳（メタデータ） (2025-06-10T17:56:11Z)
VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models [53.204403109208506]
現在のテキスト・トゥ・ビデオ(T2V)モデルは、物理的にもっともらしいコンテンツを生成するのに苦労することが多い。本稿では,基礎モデルから物理理解能力を抽出し,基礎モデルからT2Vモデルへ変換するビデオREPAを提案する。
論文参考訳（メタデータ） (2025-05-29T17:06:44Z)
Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。 DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文参考訳（メタデータ） (2025-05-27T18:26:43Z)
Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文参考訳（メタデータ） (2024-10-07T17:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。