論文の概要: Chain of Time: In-Context Physical Simulation with Image Generation Models
- arxiv url: http://arxiv.org/abs/2511.00110v1
- Date: Thu, 30 Oct 2025 21:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.609247
- Title: Chain of Time: In-Context Physical Simulation with Image Generation Models
- Title(参考訳): 時間連鎖:画像生成モデルを用いたインコンテキスト物理シミュレーション
- Authors: YingQiao Wang, Eric Bigelow, Boyi Li, Tomer Ullman,
- Abstract要約: 時間の連鎖は、機械学習における文脈内推論と人間のメンタルシミュレーションによって動機付けられている。
2次元グラフィックシミュレーションや自然3次元ビデオを含む,合成および実世界の領域にChain-of-Time法を適用した。
チェーンオブタイムシミュレーションを用いることで、最先端画像生成モデルの性能が大幅に向上する。
- 参考スコア(独自算出の注目度): 11.493192167966846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel cognitively-inspired method to improve and interpret physical simulation in vision-language models. Our ``Chain of Time" method involves generating a series of intermediate images during a simulation, and it is motivated by in-context reasoning in machine learning, as well as mental simulation in humans. Chain of Time is used at inference time, and requires no additional fine-tuning. We apply the Chain-of-Time method to synthetic and real-world domains, including 2-D graphics simulations and natural 3-D videos. These domains test a variety of particular physical properties, including velocity, acceleration, fluid dynamics, and conservation of momentum. We found that using Chain-of-Time simulation substantially improves the performance of a state-of-the-art image generation model. Beyond examining performance, we also analyzed the specific states of the world simulated by an image model at each time step, which sheds light on the dynamics underlying these simulations. This analysis reveals insights that are hidden from traditional evaluations of physical reasoning, including cases where an image generation model is able to simulate physical properties that unfold over time, such as velocity, gravity, and collisions. Our analysis also highlights particular cases where the image generation model struggles to infer particular physical parameters from input images, despite being capable of simulating relevant physical processes.
- Abstract(参考訳): 本稿では,視覚言語モデルにおける物理シミュレーションの改良と解釈のための,認知に触発された新しい手法を提案する。
我々の 'Chain of Time' 手法はシミュレーション中に一連の中間画像を生成し、機械学習における文脈内推論や人間のメンタルシミュレーションによって動機付けられる。
Chain of Timeは推論時に使用され、追加の微調整を必要としない。
2次元グラフィックシミュレーションや自然3次元ビデオを含む,合成および実世界の領域にChain-of-Time法を適用した。
これらの領域は、速度、加速度、流体力学、運動量の保存など、様々な物理特性をテストする。
その結果,チェーン・オブ・タイム・シミュレーションを用いることで,最先端画像生成モデルの性能が大幅に向上することが判明した。
また,各段階における画像モデルによりシミュレートされた世界の特定の状態を解析し,シミュレーションの基盤となるダイナミックスに光を当てた。
この分析は、画像生成モデルが速度、重力、衝突などの時間とともに広がる物理的特性をシミュレートできる場合など、従来の物理的推論の評価から隠された洞察を明らかにする。
また,画像生成モデルでは,関係する物理過程をシミュレートできるにもかかわらず,入力画像から特定の物理パラメータを推測するのに苦慮する事例についても分析を行った。
関連論文リスト
- A simulation-heuristics dual-process model for intuitive physics [28.707537312978502]
注ぐ角度の予測には,シミュレーション時間によって異なる2つの誤差パターンが認められた。
本稿では,シミュレーションのコストがかかるとシミュレーションに切り替えるシミュレーション・ヒューリスティックス・モデル (SHM) を提案する。
SHMは人間の行動とより正確に一致し、様々なシナリオにまたがる一貫した予測性能を示し、直感的な物理的推論の適応性に対する理解を深める。
論文 参考訳(メタデータ) (2025-04-13T12:34:02Z) - PhysMotion: Physics-Grounded Dynamics From a Single Image [24.096925413047217]
本稿では、物理シミュレーションを利用した新しいフレームワークであるPhysMotionを紹介し、一つの画像と入力条件から生成された中間3次元表現をガイドする。
我々のアプローチは、従来のデータ駆動生成モデルの限界に対処し、より一貫した物理的に妥当な動きをもたらす。
論文 参考訳(メタデータ) (2024-11-26T07:59:11Z) - Neural Material Adaptor for Visual Grounding of Intrinsic Dynamics [48.99021224773799]
本稿では,既存の物理法則を学習的補正と統合するニューラルネットワーク (NeuMA) を提案する。
また,粒子駆動型3次元ガウス平滑化モデルであるParticle-GSを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:43:36Z) - Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - Conditional Generative Models for Simulation of EMG During Naturalistic
Movements [45.698312905115955]
本稿では、運動単位活性化電位波形を生成するために、逆向きに訓練された条件付き生成ニューラルネットワークを提案する。
本研究では,より少ない数の数値モデルの出力を高い精度で予測的に補間できることを実証する。
論文 参考訳(メタデータ) (2022-11-03T14:49:02Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z) - Learning to Simulate Complex Physics with Graph Networks [68.43901833812448]
本稿では,機械学習のフレームワークとモデルの実装について紹介する。
グラフネットワーク・ベース・シミュレータ(GNS)と呼ばれる我々のフレームワークは、グラフ内のノードとして表現された粒子で物理系の状態を表現し、学習されたメッセージパスによって動的を計算します。
我々のモデルは,訓練中に数千の粒子による1段階の予測から,異なる初期条件,数千の時間ステップ,少なくとも1桁以上の粒子をテスト時に一般化できることを示す。
論文 参考訳(メタデータ) (2020-02-21T16:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。