論文の概要: KeyWorld: Key Frame Reasoning Enables Effective and Efficient World Models
- arxiv url: http://arxiv.org/abs/2509.21027v1
- Date: Thu, 25 Sep 2025 11:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.868843
- Title: KeyWorld: Key Frame Reasoning Enables Effective and Efficient World Models
- Title(参考訳): KeyWorld: 効率的で効率的な世界モデルを実現するキーフレーム推論
- Authors: Sibo Li, Qianyue Hao, Yu Shang, Yong Li,
- Abstract要約: KeyWorldはテキスト条件のロボットワールドモデルを改善するフレームワークである。
KeyWorldはフレーム・ツー・フレーム生成ベースラインと比較して5.68$times$Accelerationを実現していることを示す。
- 参考スコア(独自算出の注目度): 10.6118465809211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic world models are a promising paradigm for forecasting future environment states, yet their inference speed and the physical plausibility of generated trajectories remain critical bottlenecks, limiting their real-world applications. This stems from the redundancy of the prevailing frame-to-frame generation approach, where the model conducts costly computation on similar frames, as well as neglecting the semantic importance of key transitions. To address this inefficiency, we propose KeyWorld, a framework that improves text-conditioned robotic world models by concentrating transformers computation on a few semantic key frames while employing a lightweight convolutional model to fill the intermediate frames. Specifically, KeyWorld first identifies significant transitions by iteratively simplifying the robot's motion trajectories, obtaining the ground truth key frames. Then, a DiT model is trained to reason and generate these physically meaningful key frames from textual task descriptions. Finally, a lightweight interpolator efficiently reconstructs the full video by inpainting all intermediate frames. Evaluations on the LIBERO benchmark demonstrate that KeyWorld achieves a 5.68$\times$ acceleration compared to the frame-to-frame generation baseline, and focusing on the motion-aware key frames further contributes to the physical validity of the generated videos, especially on complex tasks. Our approach highlights a practical path toward deploying world models in real-time robotic control and other domains requiring both efficient and effective world models. Code is released at https://anonymous.4open.science/r/Keyworld-E43D.
- Abstract(参考訳): ロボットの世界モデルは将来の環境状態を予測するための有望なパラダイムであるが、その推論速度と生成された軌道の物理的妥当性は、現実の応用を制限する重要なボトルネックのままである。
これは、同じフレーム上でコストのかかる計算を行い、キー遷移のセマンティックな重要性を無視する、一般的なフレーム・ツー・フレーム生成アプローチの冗長性に起因している。
この非効率性に対処するため,いくつかのセマンティックキーフレームにトランスフォーマー計算を集中させ,中間フレームを埋める軽量な畳み込みモデルを用いて,テキスト条件のロボット世界モデルを改善するフレームワークであるKeyWorldを提案する。
具体的には、KeyWorldはまず、ロボットの運動軌跡を反復的に単純化し、基礎となる真理の鍵フレームを取得することで、重要な遷移を識別する。
そして、テキストタスク記述から、これらの物理的に意味のあるキーフレームを推論し、生成するために、DiTモデルを訓練する。
最後に、軽量補間器は、すべての中間フレームを塗布することにより、全映像を効率的に再構成する。
LIBEROベンチマークの評価によると、KeyWorldはフレーム間生成ベースラインと比較して5.68$\times$Accelerationを実現しており、モーション対応のキーフレームに注目することが、生成したビデオ、特に複雑なタスクの物理的妥当性にさらに寄与している。
提案手法は,実時間ロボット制御や,効率的かつ効率的な世界モデルを必要とする他の領域において,世界モデルを展開するための実践的な道のりを浮き彫りにする。
コードはhttps://anonymous.4open.science/r/Keyworld-E43Dで公開されている。
関連論文リスト
- Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - Less is More: Improving Motion Diffusion Models with Sparse Keyframes [21.48244441857993]
本稿では,スパースと幾何学的意味を意識した新しい拡散フレームワークを提案する。
本手法は,非鍵フレームをマスキングし,欠落フレームを効率的に補間することにより低減する。
我々のアプローチは、テキストアライメントやモーションリアリズムにおいて、最先端の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-03-18T03:20:02Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z) - Transformers and Slot Encoding for Sample Efficient Physical World Modelling [1.5498250598583487]
本研究では,世界モデリングのためのトランスフォーマーとスロットアテンションパラダイムを組み合わせたアーキテクチャを提案する。
得られたニューラルアーキテクチャについて述べるとともに、既存のソリューションよりも、サンプル効率とトレーニング例よりも性能の変動を低減できることを示す実験結果を報告する。
論文 参考訳(メタデータ) (2024-05-30T15:48:04Z) - Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。