論文の概要: PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop
- arxiv url: http://arxiv.org/abs/2503.09595v1
- Date: Wed, 12 Mar 2025 17:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:38:54.425365
- Title: PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop
- Title(参考訳): PISA実験:ビデオ拡散モデルの物理実験
- Authors: Chenyu Li, Oscar Michel, Xichen Pan, Sainan Liu, Mike Roberts, Saining Xie,
- Abstract要約: 我々は、オブジェクトのフリーフォールをモデル化するシンプルな、しかし基本的な物理課題に、最先端のビデオ生成モデルが苦戦していることを示す。
比較的少量のシミュレーションビデオの微調整は、モデル内の落下挙動を誘導するのに有効である。
本稿では,大規模ビデオ生成モデル開発における身体的精度の追跡に有用な診断ツールとして,このタスクのベンチマークをリリースする。
- 参考スコア(独自算出の注目度): 28.95998422419843
- License:
- Abstract: Large-scale pre-trained video generation models excel in content creation but are not reliable as physically accurate world simulators out of the box. This work studies the process of post-training these models for accurate world modeling through the lens of the simple, yet fundamental, physics task of modeling object freefall. We show state-of-the-art video generation models struggle with this basic task, despite their visually impressive outputs. To remedy this problem, we find that fine-tuning on a relatively small amount of simulated videos is effective in inducing the dropping behavior in the model, and we can further improve results through a novel reward modeling procedure we introduce. Our study also reveals key limitations of post-training in generalization and distribution modeling. Additionally, we release a benchmark for this task that may serve as a useful diagnostic tool for tracking physical accuracy in large-scale video generative model development.
- Abstract(参考訳): 大規模な事前学習ビデオ生成モデルはコンテンツ作成に優れるが、物理的に正確な世界シミュレーターとして信頼性は低い。
本研究は、物体自由落下をモデル化する単純で基本的な物理課題のレンズを通して、これらのモデルを正確な世界モデリングのために後から学習する過程を研究する。
視覚的に印象的な出力にもかかわらず、最先端のビデオ生成モデルは、この基本的な課題に苦戦している。
この問題を解決するために,比較的少量のシミュレーションビデオの微調整がモデルにおける落下挙動の誘導に有効であることが確認された。
また,本研究では,一般化と分布モデリングにおけるポストトレーニングの限界も明らかにした。
さらに,大規模ビデオ生成モデルの開発において,身体的精度を追跡するための有用な診断ツールとして,このタスクのベンチマークをリリースする。
関連論文リスト
- Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - AVID: Adapting Video Diffusion Models to World Models [10.757223474031248]
我々は,事前学習されたモデルのパラメータにアクセスすることなく,事前学習された映像拡散モデルを行動条件付き世界モデルに適用することを提案する。
AVIDは学習マスクを使用して、事前訓練されたモデルの中間出力を変更し、正確なアクション条件のビデオを生成する。
AVIDをゲームや実世界のロボットデータ上で評価し,既存の拡散モデル適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-01T13:48:31Z) - Video Diffusion Alignment via Reward Gradients [46.59030518823666]
本研究では,映像拡散モデルに適応するために,強力な視覚識別モデル上での嗜好によって学習される事前学習報酬モデルを利用する。
様々な報酬モデルとビデオ拡散モデルにまたがって結果を示し、報奨クエリや計算の点で、我々のアプローチがより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2024-07-11T17:59:45Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - Towards Foundation Models for Scientific Machine Learning:
Characterizing Scaling and Transfer Behavior [32.74388989649232]
我々は、科学機械学習(SciML)の応用において、事前学習をどのように利用できるかを研究する。
これらのモデルを微調整すると、モデルのサイズが大きくなるにつれてパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-06-01T00:32:59Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z) - Hybrid modeling: Applications in real-time diagnosis [64.5040763067757]
我々は、機械学習にインスパイアされたモデルと物理モデルを組み合わせた、新しいハイブリッドモデリングアプローチの概要を述べる。
このようなモデルをリアルタイム診断に利用しています。
論文 参考訳(メタデータ) (2020-03-04T00:44:57Z) - Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。
アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。
デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文 参考訳(メタデータ) (2020-01-20T15:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。