論文の概要: Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.15932v1
- Date: Tue, 22 Apr 2025 14:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 17:57:45.160966
- Title: Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning
- Title(参考訳): 強化学習による拡散タイムステップトークンによる物理映像生成の推論
- Authors: Wang Lin, Liyu Jia, Wentao Hu, Kaihang Pan, Zhongqi Yue, Wei Zhao, Jingyuan Chen, Fei Wu, Hanwang Zhang,
- Abstract要約: 本稿では,映像生成における物理的一貫性を実現するために,記号的推論と強化学習を統合することを提案する。
そこで我々は,Phys-ARフレームワークを提案する。第1段階は教師付き微調整を用いて記号的知識を伝達し,第2段階はモデルの推論能力の最適化に強化学習を適用する。
提案手法により,生成したビデオの物理的特性を動的に調整し,改善し,物理法則の遵守を確保することができる。
- 参考スコア(独自算出の注目度): 53.33388279933842
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite recent progress in video generation, producing videos that adhere to physical laws remains a significant challenge. Traditional diffusion-based methods struggle to extrapolate to unseen physical conditions (eg, velocity) due to their reliance on data-driven approximations. To address this, we propose to integrate symbolic reasoning and reinforcement learning to enforce physical consistency in video generation. We first introduce the Diffusion Timestep Tokenizer (DDT), which learns discrete, recursive visual tokens by recovering visual attributes lost during the diffusion process. The recursive visual tokens enable symbolic reasoning by a large language model. Based on it, we propose the Phys-AR framework, which consists of two stages: The first stage uses supervised fine-tuning to transfer symbolic knowledge, while the second stage applies reinforcement learning to optimize the model's reasoning abilities through reward functions based on physical conditions. Our approach allows the model to dynamically adjust and improve the physical properties of generated videos, ensuring adherence to physical laws. Experimental results demonstrate that PhysAR can generate videos that are physically consistent.
- Abstract(参考訳): 最近のビデオ生成の進歩にもかかわらず、物理法則に従うビデオを作ることは大きな課題である。
従来の拡散に基づく手法は、データ駆動近似に依存するため、目に見えない物理的条件(例えば速度)に外挿するのに苦労する。
そこで我々は,映像生成における物理的一貫性を強制するために,シンボリック推論と強化学習を統合することを提案する。
まずDDT(Diffusion Timestep Tokenizer)を導入し,拡散過程中に失われた視覚特性を復元することにより,離散的かつ再帰的な視覚トークンを学習する。
再帰的な視覚トークンは、大きな言語モデルによるシンボリック推論を可能にする。
第一段階では教師付き微調整を用いて記号的知識を伝達し、第二段階では物理条件に基づく報酬関数によるモデル推論能力の最適化に強化学習を適用する。
提案手法により,生成したビデオの物理的特性を動的に調整し,改善し,物理法則の遵守を確保することができる。
実験の結果、PhysARは物理的に一貫したビデオを生成することができた。
関連論文リスト
- Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Teaching Video Diffusion Model with Latent Physical Phenomenon Knowledge [49.60640053101214]
本稿では,物理現象の知識が潜むビデオ拡散モデルを教える新しい手法を提案する。
CLIPビジョンと言語エンコーダの空間的関係に基づいて擬似言語プロンプトを生成する。
物理現象の数値シミュレーションと実世界観測の両方を通して,本手法を広範囲に検証した。
論文 参考訳(メタデータ) (2024-11-18T07:26:09Z) - ReinDiffuse: Crafting Physically Plausible Motions with Reinforced Diffusion Model [9.525806425270428]
本稿では、強化学習と運動拡散モデルを組み合わせることで、物理的に信頼できる人間の動きを生成するEmphReinDiffuseを提案する。
動作拡散モデルを用いてパラメータ化された動作分布を出力し、強化学習パラダイムに適合させる。
我々のアプローチは、HumanML3DとKIT-MLという2つの主要なデータセット上で、既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-09T16:24:11Z) - Disentangled Counterfactual Learning for Physical Audiovisual
Commonsense Reasoning [48.559572337178686]
本稿では,視覚的コモンセンス推論のためのディスタングル型対実学習手法を提案する。
提案手法は,任意のベースラインに組み込むことができるプラグアンドプレイモジュールである。
論文 参考訳(メタデータ) (2023-10-30T14:16:34Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Neural Implicit Representations for Physical Parameter Inference from a Single Video [49.766574469284485]
本稿では,外見モデルのためのニューラル暗黙表現と,物理現象をモデル化するためのニューラル常微分方程式(ODE)を組み合わせることを提案する。
提案モデルでは,大規模なトレーニングデータセットを必要とする既存のアプローチとは対照的に,単一のビデオから物理的パラメータを識別することが可能になる。
ニューラル暗示表現を使用することで、高解像度ビデオの処理とフォトリアリスティック画像の合成が可能になる。
論文 参考訳(メタデータ) (2022-04-29T11:55:35Z) - Learning to Identify Physical Parameters from Video Using Differentiable
Physics [2.15242029196761]
本稿では,アクション条件付きビデオ表現ネットワーク内の物理エンジンを用いて物理潜在表現を学習する手法を提案する。
われわれのネットワークは、画像のエンコードと、ビデオやアクションシーケンスからの質量や摩擦などの物理的特性の同定を学習できることを実証する。
論文 参考訳(メタデータ) (2020-09-17T13:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。