論文の概要: NEWTON: Agentic Planning for Physically Grounded Video Generation
- arxiv url: http://arxiv.org/abs/2605.18396v2
- Date: Tue, 19 May 2026 06:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.572541
- Title: NEWTON: Agentic Planning for Physically Grounded Video Generation
- Title(参考訳): NEWTON:物理グラウンド映像生成のためのエージェントプランニング
- Authors: Yuxiang Feng, Juncheng Wang, Chao Xu, Yijie Qian, Huihan Wang, Wenlong Hou, Yang Liu, Baigui Sun, Yong Liu, Shujun Wang,
- Abstract要約: ビデオ生成モデルは視覚的に説得力のある結果を生み出すが、体系的に物理的常識に反する。
VideoPhy-2では、最良のモデルは32.6%のジョイント精度しか達成していない。
本稿では,システム出力からエージェントのツールボックス内の1つのアクションに映像生成を分解するNEWTONを提案する。
- 参考スコア(独自算出の注目度): 28.658261969213097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models produce visually compelling results but systematically violate physical commonsense -- on VideoPhy-2, the best model achieves only 32.6% joint accuracy. We identify a specification bottleneck: text prompts are lossy compression of the physical world, omitting the parameters that fully determine dynamics, and no amount of model scaling can recover what was never specified. From this diagnosis we derive three properties that physics conditioning must satisfy -- sufficiency, dynamism, and verifiability -- and show that no existing approach satisfies all three. We present NEWTON, in which video generation is demoted from the system output to one action inside an agent's toolbox: a learned planner orchestrates physics-aware tools (keyframe generation, scientific computation, prompt refinement) to construct rich conditioning, and a verifier closes the loop for iterative re-planning. The planner is the sole trainable component, optimized on-policy via Flow-GRPO inside the live multi-turn loop. On VideoPhy-2, NEWTON improves joint accuracy from 21.4% to 29.7% on LTX-Video and from 30.7% to 37.4% on Veo-3.1, without modifying either generator. Our project page: https://Newton026.github.io/newton
- Abstract(参考訳): ビデオ生成モデルは視覚的に説得力のある結果を生成するが、体系的には物理コモンセンスに反する -- VideoPhy-2では、最高のモデルは32.6%のジョイント精度しか達成していない。
テキストプロンプトは物理世界のロッキーな圧縮であり、動的性を完全に決定するパラメータを省略し、モデルスケーリングの量は指定されていないものを回復することができない。
この診断から、物理条件付けが満たさなければならない3つの特性(充足性、ダイナミズム、妥当性)を導き、既存のアプローチが3つ全てを満たすことはないことを示す。
学習プランナーは、リッチコンディショニングを構築するために物理対応ツール(キーフレーム生成、科学計算、即時改善)を編成し、検証器は繰り返し再計画のためのループを閉じる。
プランナーは唯一のトレーニング可能なコンポーネントで、ライブマルチターンループ内でFlow-GRPOを介して、オンデマンドで最適化されている。
VideoPhy-2では、NEWTONは、LTX-Videoで21.4%から29.7%、Veo-3.1で30.7%から37.4%に改善した。
プロジェクトページ: https://Newton026.github.io/newton
関連論文リスト
- ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video [51.2815592637053]
ReconPhysは、単一の単眼ビデオから物理的属性推定と3次元ガウススプラッティング再構成を共同で学習するフィードフォワードフレームワークである。
提案手法では, 自己教師型戦略を用いて訓練したデュアルブランチアーキテクチャを用いて, 地上の物理ラベルの必要性を解消する。
大規模合成データセットの実験は優れた性能を示した。
論文 参考訳(メタデータ) (2026-04-09T06:51:14Z) - Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation [76.04880323498598]
自己回帰動画追跡モデル(SAM2)から双方向ビデオ拡散モデル(CogVideoX)へ構造保存動作先行情報を抽出するアルゴリズムを提案する。
VBenchと人間の研究ではSAM2VideoXが一貫した利益をもたらすことが示されている。
論文 参考訳(メタデータ) (2025-12-12T18:56:35Z) - PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis [37.21119648359889]
PhysGMはフィードフォワードフレームワークであり、単一の画像から3次元ガウス表現とその物理的特性を共同で予測する。
1分で1枚の画像から高忠実度4Dシミュレーションを効果的に生成する。
論文 参考訳(メタデータ) (2025-08-19T15:10:30Z) - ProJo4D: Progressive Joint Optimization for Sparse-View Inverse Physics Estimation [4.818571559544214]
物理を視覚データから推定する逆問題では、いまだに困難である。
本稿では,段階的共同最適化フレームワークProJo4Dを提案する。
ProJo4Dは, 4次元の将来の状態, 将来の状態の新たなレンダリング, 材料パラメータ推定において, 先行処理よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-05T17:55:56Z) - FastCHGNet: Training one Universal Interatomic Potential to 1.5 Hours with 32 GPUs [5.934344414408804]
グラフニューラルネットワークユニバーサル原子間ポテンシャル(GNN-UIPs)は、物質発見と特性予測において顕著な一般化と伝達能力を示す。
注目すべき例としてCrystal Hamiltonian Graph Neural Network (CHGNet)があり、MPtrjデータセットからエネルギー、力、応力、磁気モーメントを事前訓練している。
本稿では3つのコントリビューションを持つ最適化CHGNetであるFastCHGNetを紹介する。
論文 参考訳(メタデータ) (2024-12-30T08:38:09Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - AdaPoinTr: Diverse Point Cloud Completion with Adaptive Geometry-Aware
Transformers [94.11915008006483]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々は、ポイントクラウド補完のためにTransformerエンコーダデコーダアーキテクチャを採用したPoinTrと呼ばれる新しいモデルを設計する。
本手法は,PCNで6.53 CD,ShapeNet-55で0.81 CD,現実世界のKITTIで0.392 MMDを実現する。
論文 参考訳(メタデータ) (2023-01-11T16:14:12Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z) - Mix Dimension in Poincar\'{e} Geometry for 3D Skeleton-based Action
Recognition [57.98278794950759]
グラフ畳み込みネットワーク(GCN)はすでに、不規則なデータをモデル化する強力な能力を実証している。
本稿では,ポアンカー幾何学を用いて定義した空間時空間GCNアーキテクチャを提案する。
提案手法を,現在最大規模の2つの3次元データセット上で評価する。
論文 参考訳(メタデータ) (2020-07-30T18:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。