Fugu-MT 論文翻訳(概要): Proprio: Latent Self-Scoring and Inference-Time Refinement for Physically Plausible Video Generation

論文の概要: Proprio: Latent Self-Scoring and Inference-Time Refinement for Physically Plausible Video Generation

arxiv url: http://arxiv.org/abs/2605.28230v1
Date: Wed, 27 May 2026 09:44:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:55.945899
Title: Proprio: Latent Self-Scoring and Inference-Time Refinement for Physically Plausible Video Generation
Title（参考訳）: Proprio: 物理的にプラズブルなビデオ生成のための潜在自撮りと推論時間短縮
Authors: Mariam Hassan, Kaouther Messaoud, Wuyang Li, Alexandre Alahi,
Abstract要約: Proprioは、凍結したジェネレータが自身の出力の物理的妥当性を評価し改善することを可能にする、トレーニング不要のフレームワークである。自己運動の生物学的感覚であるプロプリセプションにインスパイアされたプロプリオは、モデルの流れを自己刺激信号として扱う。 Proprioは、テキスト・ツー・ビデオ・ベンチマークと画像・ツー・ビデオ・ベンチマークの物理的妥当性を一貫して改善する。
参考スコア（独自算出の注目度）: 78.41956766048308
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern video generative models produce visually impressive results, yet frequently violate basic physical principles. We propose Proprio, a training-free framework that enables a frozen video generator to assess and improve the physical plausibility of its own outputs. Inspired by proprioception, the biological sense of one's own movement, Proprio treats the model's flow residual under controlled latent perturbations as a self-scoring signal. Samples that are better explained by the generator's learned dynamics induce smaller and more stable residuals. We aggregate this signal across timesteps and perturbations, focus it on motion-relevant regions with a dynamic spatiotemporal mask, and use it for best-of-N search, gradient-based self-refinement, or both. Across text-to-video and image-to-video benchmarks, Proprio consistently improves physical plausibility, outperforming VLM-based scoring, and external world-model baselines in several settings. With TurboWan2.2, Proprio improves Physics-IQ from 32.2 to 37.5 (+16.5%) and VideoPhy2-hard physical commonsense from 45.6 to 55.0 (+20.6%). Human evaluation further shows that raters prefer Proprio-selected or refined videos for physical plausibility in roughly two-thirds of comparisons. These results suggest that frozen video generators contain actionable internal signals for evaluating and improving the physical plausibility of their own outputs.
Abstract（参考訳）: 現代のビデオ生成モデルは視覚的に印象的な結果をもたらすが、基本的な物理原理にはしばしば違反する。本稿では,凍結したビデオ生成器が自身の出力の物理的妥当性を評価・改善することのできる,トレーニング不要のフレームワークProprioを提案する。自己運動の生物学的感覚であるプロプリセプションにインスパイアされたプロプリオは、制御された潜在摂動下でのモデルの流れの残留を自己刺激信号として扱う。ジェネレータの学習力学によりよりよく説明されるサンプルは、より小さくより安定した残基を誘導する。我々は、この信号を時間ステップと摂動で集約し、ダイナミックな時空間マスクで運動関連領域に焦点を合わせ、ベスト・オブ・N検索、勾配に基づく自己修正、あるいはその両方に使用します。テキスト・ツー・ビデオのベンチマークや画像・ビデオのベンチマークを通じて、Proprioは物理的妥当性を一貫して改善し、VLMベースのスコア、外部モデルベースラインをいくつかの設定で上回る。 TurboWan2.2では、Proprioは物理IQを32.2から37.5(+16.5%)に改善し、VideoPhy2ハード物理コモンセンスを45.6から55.0(+20.6%)に改善した。人間の評価は、比較のおよそ3分の2で、プロプリオ選択されたビデオや洗練されたビデオを好むことを示している。これらの結果から, 冷凍映像生成装置は, 出力の物理的妥当性を評価するための動作可能な内部信号を含むことが示唆された。

関連論文リスト

PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation [75.96085587438279]
既存のビデオ報酬は主に2D知覚信号に依存しており、3Dの身体状態、接触状態、人間の関節の動きに基づくダイナミクスを明示的にモデル化する必要はない。物理シミュレータにおける3次元人体軌道の復元を基礎とした構造的,きめ細かな運動報酬であるPhyMotionを提案し,運動の質を多次元の物理的実現性に沿って評価する。実験により、PhyMotionは既存の報酬の定式化よりも人間の判断と強い相関性が得られることが示された。
論文参考訳（メタデータ） (2026-05-14T02:12:13Z)
PhyCo: Learning Controllable Physical Priors for Generative Motion [55.59209981836171]
本稿では,ビデオ生成に連続的,解釈可能,物理的に接地された制御を導入するフレームワークであるPhyCoを紹介する。 i) 摩擦, 再構成, 変形, 力が様々なシナリオで体系的に変化する100K以上のフォトリアリスティック・シミュレーション・ビデオの大規模データセット, (ii) 物理制御された拡散モデルの微調整, (iii) VLM誘導報酬最適化, 微調整された視覚言語モデルにより、対象とする物理クエリを用いて生成されたビデオを評価し、異なるフィードバックを提供する。
論文参考訳（メタデータ） (2026-04-30T17:53:03Z)
Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning [77.34919361116037]
ビデオ生成モデルは、ストーリーテリング、シミュレーション、エンボディドAIのための世界シミュレータとして、ますます使われている。既存の評価は、自動化されたメトリクスや、好みやルーリックベースのチェックのような粗い人間の判断に大きく依存している。 5つの最先端モデルによって生成されたビデオにおいて、物理的リアリズムの失敗を診断するための専門家による推論のベンチマークであるPhyllon-Evalを紹介する。
論文参考訳（メタデータ） (2026-03-20T03:25:41Z)
Physical Simulator In-the-Loop Video Generation [96.87054314612142]
Physical Simulator In-the-loop Video Generation (PSIVG)は、物理シミュレータをビデオ拡散プロセスに統合する新しいフレームワークである。 PSIVGは、視覚的品質と多様性を保ちながら、現実世界の物理に忠実なビデオを制作する。
論文参考訳（メタデータ） (2026-03-06T15:48:25Z)
Self-Refining Video Sampling [91.0784344916165]
本稿では,大規模データセットを学習した事前学習ビデオジェネレータを自己精錬機として利用する簡単な方法である自己精錬ビデオサンプリングを提案する。最先端のビデオジェネレータの実験では、運動コヒーレンスと物理アライメントが大幅に改善された。
論文参考訳（メタデータ） (2026-01-26T15:22:27Z)
PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文参考訳（メタデータ） (2025-11-06T02:40:57Z)
PhyMAGIC: Physical Motion-Aware Generative Inference with Confidence-guided LLM [17.554471769834453]
一つの画像から物理的に一貫した動きを生成するトレーニング不要のフレームワークであるPhyMAGICを提案する。 PhyMAGICは、事前訓練された画像間拡散モデル、LDMによる信頼誘導推論、微分可能な物理シミュレータを統合する。総合的な実験により、PhyMAGICは最先端のビデオジェネレータや物理対応のベースラインより優れていることが示された。
論文参考訳（メタデータ） (2025-05-22T09:40:34Z)
Optimal-state Dynamics Estimation for Physics-based Human Motion Capture from Videos [6.093379844890164]
オンライン環境での運動学観測に物理モデルを選択的に組み込む新しい手法を提案する。リカレントニューラルネットワークを導入し、キネマティックス入力とシミュレートされた動作を熱心にバランスするカルマンフィルタを実現する。提案手法は,物理に基づく人間のポーズ推定作業に優れ,予測力学の物理的妥当性を示す。
論文参考訳（メタデータ） (2024-10-10T10:24:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。