論文の概要: SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents
- arxiv url: http://arxiv.org/abs/2603.08403v2
- Date: Wed, 11 Mar 2026 02:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:44.159929
- Title: SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents
- Title(参考訳): SPIRAL: 反射計画エージェントによる自己改善行動世界モデルのためのクローズドループフレームワーク
- Authors: Yu Yang, Yue Liao, Jianbiao Mei, Baisen Wang, Xuemeng Yang, Licheng Wen, Jiangning Zhang, Xiangtai Li, Hanlin Chen, Botian Shi, Yong Liu, Shuicheng Yan, Gim Hee Lee,
- Abstract要約: 本稿では,自己改善型計画および反復的行動世界モデリングフレームワークであるSPIRALを紹介する。
SPIRALはActWMをクローズドループシンク-アクト-リフレクションプロセスとして定式化し、そこで生成は明示的な計画とフィードバックの下で段階的に進行する。
複数のTI2Vバックボーンに対する実験は、ActWM-Benchとメインストリームのビデオ生成ベンチマークで一貫した利得を示している。
- 参考スコア(独自算出の注目度): 135.00390535239129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SPIRAL, a self-improving planning and iterative reflective action world modeling closed-loop framework that enables controllable long-horizon video generation conditioned on high-level semantic actions. Existing one-shot video generation models operate in open-loop, often resulting in incomplete action execution, weak semantic grounding, and temporal drift. SPIRAL formulates ActWM as a closed-loop think-act-reflect process, where generation proceeds step by step under explicit planning and feedback. A PlanAgent decomposes abstract actions into object-centric sub-actions, while a CriticAgent evaluates intermediate results and guides iterative refinement with long-horizon memory. This closed-loop design naturally supports RL evolving optimization, improving semantic alignment and temporal consistency over extended horizons. We further introduce the ActWM-Dataset and ActWM-Bench for training and evaluation. Experiments across multiple TI2V backbones demonstrate consistent gains on ActWM-Bench and mainstream video generation benchmarks, validating SPIRAL's effectiveness.
- Abstract(参考訳): SPIRALは、高レベルなセマンティックアクションを前提とした、制御可能な長距離ビデオ生成を可能にする、自己改善型計画および反復反射型アクションワールドモデリングクローズループフレームワークである。
既存のワンショットビデオ生成モデルはオープンループで動作し、しばしば不完全なアクション実行、弱いセマンティックグラウンド、時間的ドリフトをもたらす。
SPIRALはActWMをクローズドループシンク-アクト-リフレクションプロセスとして定式化し、そこで生成は明示的な計画とフィードバックの下で段階的に進行する。
PlanAgentは抽象的なアクションをオブジェクト中心のサブアクションに分解し、CriticAgentは中間結果を評価し、長い水平メモリで反復的洗練を導く。
この閉ループ設計は自然にRLの進化的最適化をサポートし、拡張水平線上での意味的アライメントと時間的一貫性を改善している。
さらに、トレーニングと評価のためのActWM-DatasetとActWM-Benchを紹介する。
複数のTI2Vバックボーンに対する実験は、ActWM-Benchとメインストリームのビデオ生成ベンチマークに対して一貫した利得を示し、SPIRALの有効性を検証する。
関連論文リスト
- Chain of World: World Model Thinking in Latent Motion [24.24061036481793]
VLA(Vision-Language-Action)モデルはしばしば、視覚力学の基礎となる予測的・時間的・因果的構造を見落としている。
我々は,世界モデルの時間的推論を非絡み合いの潜在動作表現と統合する新しい「世界の連鎖」パラダイムであるCoWVLAを紹介した。
CoWVLAは、既存のワールドモデルおよび潜在アクションアプローチより優れ、適度な計算効率を達成する。
論文 参考訳(メタデータ) (2026-03-03T17:52:06Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - STORM: Search-Guided Generative World Models for Robotic Manipulation [10.365032830677162]
STORMはロボット操作における時間的推論のためのフレームワークである。
拡散に基づくアクション生成、条件付きビデオ予測、検索ベースの計画を統合する。
ストームは視覚的に計画を立て、解釈可能でフォアサイト駆動の意思決定を可能にする。
論文 参考訳(メタデータ) (2025-12-20T19:40:25Z) - SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models [42.814012901180774]
textbfSAMPOは、フレーム内生成のための視覚的自己回帰モデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドフレームワークである。
動作条件付きビデオ予測とモデルベース制御において,SAMPOが競合性能を発揮することを示す。
また、SAMPOのゼロショット一般化とスケーリング挙動を評価し、未知のタスクに一般化する能力を示す。
論文 参考訳(メタデータ) (2025-09-19T02:41:37Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - JNMR: Joint Non-linear Motion Regression for Video Frame Interpolation [47.123769305867775]
ビデオフレーム(VFI)は、双方向の歴史的参照から学習可能な動きを歪曲することでフレームを生成することを目的としている。
我々は、フレーム間の複雑な動きをモデル化するために、VFIをJNMR(Joint Non-linear Motion Regression)戦略として再構成する。
その結果, 関節運動の退行性は, 最先端の方法と比較して有意に向上した。
論文 参考訳(メタデータ) (2022-06-09T02:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。