論文の概要: Hierarchical Fine-grained Preference Optimization for Physically Plausible Video Generation
- arxiv url: http://arxiv.org/abs/2508.10858v1
- Date: Thu, 14 Aug 2025 17:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.43128
- Title: Hierarchical Fine-grained Preference Optimization for Physically Plausible Video Generation
- Title(参考訳): 物理的にプラズブルなビデオ生成のための階層的微粒化選好最適化
- Authors: Harold Haodong Chen, Haojian Huang, Qifeng Chen, Harry Yang, Ser-Nam Lim,
- Abstract要約: PhysHPOは階層的クロスモーダル直接参照最適化のための新しいフレームワークである。
物理的に妥当なビデオ生成のための微妙な好み調整を可能にする。
また,PhysHPOは,高度なモデルの物理的妥当性と全体的な映像生成品質を著しく向上させることを示した。
- 参考スコア(独自算出の注目度): 80.89133198952187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in video generation have enabled the creation of high-quality, visually compelling videos. However, generating videos that adhere to the laws of physics remains a critical challenge for applications requiring realism and accuracy. In this work, we propose PhysHPO, a novel framework for Hierarchical Cross-Modal Direct Preference Optimization, to tackle this challenge by enabling fine-grained preference alignment for physically plausible video generation. PhysHPO optimizes video alignment across four hierarchical granularities: a) Instance Level, aligning the overall video content with the input prompt; b) State Level, ensuring temporal consistency using boundary frames as anchors; c) Motion Level, modeling motion trajectories for realistic dynamics; and d) Semantic Level, maintaining logical consistency between narrative and visuals. Recognizing that real-world videos are the best reflections of physical phenomena, we further introduce an automated data selection pipeline to efficiently identify and utilize "good data" from existing large-scale text-video datasets, thereby eliminating the need for costly and time-intensive dataset construction. Extensive experiments on both physics-focused and general capability benchmarks demonstrate that PhysHPO significantly improves physical plausibility and overall video generation quality of advanced models. To the best of our knowledge, this is the first work to explore fine-grained preference alignment and data selection for video generation, paving the way for more realistic and human-preferred video generation paradigms.
- Abstract(参考訳): 近年のビデオ生成の進歩により、高品質で視覚的に魅力的なビデオが作成できるようになった。
しかし、物理法則に従うビデオを生成することは、現実主義と正確性を必要とするアプリケーションにとって重要な課題である。
本研究では,階層的クロスモーダル直接選好最適化のための新しいフレームワークであるPhysHPOを提案する。
PhysHPOは、4つの階層的な粒度の動画アライメントを最適化する。
a) ビデオコンテンツ全体と入力プロンプトを整合させるインスタンスレベル
ロ 境界枠をアンカーとする時間的整合性を確保する状態レベル
c) 運動レベル、現実力学のための運動軌跡のモデル化、及び
d) 物語と視覚の論理的整合性を維持する意味レベル
実世界のビデオが物理現象の最良のリフレクションであることを認識し、我々はさらに、既存の大規模テキストビデオデータセットから「良いデータ」を効率的に識別し、活用するための自動データ選択パイプラインを導入し、コストと時間を要するデータセット構築の必要性を排除した。
PhysHPOは、物理に焦点をあてたベンチマークと一般機能ベンチマークの両方において、高度なモデルの物理的可視性と全体的なビデオ生成品質を著しく改善することを示した。
私たちの知る限りでは、これはビデオ生成のためのきめ細かい選好アライメントとデータ選択を探求する最初の試みであり、より現実的で人間に好まれるビデオ生成パラダイムへの道を開くものだ。
関連論文リスト
- RDPO: Real Data Preference Optimization for Physics Consistency Video Generation [24.842288734103505]
本稿では,実世界のビデオから直接物理先行情報を抽出するアノテーションのないフレームワークであるReal Data Preference Optimisation(RDPO)を提案する。
RDPOは、トレーニング済みのジェネレータで実ビデオシーケンスを逆サンプリングし、物理的正確性の観点から区別可能な好みペアを自動的に構築する。
多段階反復訓練スケジュールは、ジェネレータが物理法則に従うように誘導する。
論文 参考訳(メタデータ) (2025-06-23T13:55:24Z) - Vid2Sim: Generalizable, Video-based Reconstruction of Appearance, Geometry and Physics for Mesh-free Simulation [41.17844925831194]
Vid2Simは、幾何学と物理特性を回復するための一般化可能なビデオベースのアプローチである。
物理世界の知識を捉えるために訓練されたフィードフォワードニューラルネットワークは、物理システムの観察された構成をビデオから再構築する。
軽量な最適化パイプラインは、推定外観、幾何学、物理的特性を洗練し、ビデオ観察と密接に一致させる。
論文 参考訳(メタデータ) (2025-06-06T18:00:46Z) - Motion aware video generative model [12.5036873986483]
拡散に基づくビデオ生成は、視覚内容とセマンティックコヒーレンスに前例のない品質をもたらす。
現在のアプローチは、基礎となる運動物理学を明示的にモデル化することなく、統計的学習に依存している。
本稿では、物理インフォームド周波数領域を用いて、生成したビデオの物理的妥当性を高める手法を提案する。
論文 参考訳(メタデータ) (2025-06-02T20:42:54Z) - RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - VPO: Aligning Text-to-Video Generation Models with Prompt Optimization [80.86205966195593]
ビデオ生成モデルは、通常、高度に詳細で慎重に記述されたテキストとビデオのペアで訓練される。
VPOは3つの基本原則(無害性、正確性、有用性)に基づいてプロンプトを最適化する、原則化されたフレームワークです。
実験の結果,VPOは基準法に比べて安全性,アライメント,画質を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-03-26T12:28:20Z) - Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:44:23Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。