論文の概要: FLARE: Robot Learning with Implicit World Modeling
- arxiv url: http://arxiv.org/abs/2505.15659v1
- Date: Wed, 21 May 2025 15:33:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.745197
- Title: FLARE: Robot Learning with Implicit World Modeling
- Title(参考訳): FLARE: 意図しない世界モデリングによるロボット学習
- Authors: Ruijie Zheng, Jing Wang, Scott Reed, Johan Bjorck, Yu Fang, Fengyuan Hu, Joel Jang, Kaushil Kundalia, Zongyu Lin, Loic Magne, Avnish Narayan, You Liang Tan, Guanzhi Wang, Qi Wang, Jiannan Xiang, Yinzhen Xu, Seonghyeon Ye, Jan Kautz, Furong Huang, Yuke Zhu, Linxi Fan,
- Abstract要約: $textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
- 参考スコア(独自算出の注目度): 87.81846091038676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce $\textbf{F}$uture $\textbf{LA}$tent $\textbf{RE}$presentation Alignment ($\textbf{FLARE}$), a novel framework that integrates predictive latent world modeling into robot policy learning. By aligning features from a diffusion transformer with latent embeddings of future observations, $\textbf{FLARE}$ enables a diffusion transformer policy to anticipate latent representations of future observations, allowing it to reason about long-term consequences while generating actions. Remarkably lightweight, $\textbf{FLARE}$ requires only minimal architectural modifications -- adding a few tokens to standard vision-language-action (VLA) models -- yet delivers substantial performance gains. Across two challenging multitask simulation imitation learning benchmarks spanning single-arm and humanoid tabletop manipulation, $\textbf{FLARE}$ achieves state-of-the-art performance, outperforming prior policy learning baselines by up to 26%. Moreover, $\textbf{FLARE}$ unlocks the ability to co-train with human egocentric video demonstrations without action labels, significantly boosting policy generalization to a novel object with unseen geometry with as few as a single robot demonstration. Our results establish $\textbf{FLARE}$ as a general and scalable approach for combining implicit world modeling with high-frequency robotic control.
- Abstract(参考訳): 我々は、予測潜在世界モデリングをロボットポリシー学習に統合する新しいフレームワークである、$\textbf{F}$uture $\textbf{LA}$tent $\textbf{RE}$presentation Alignment$\textbf{FLARE}$を紹介した。
$\textbf{FLARE}$ は拡散変圧器の機能を将来の観測の潜時埋め込みに合わせることで、将来の観測の潜時表現を予測できる拡散変圧器のポリシーを可能にし、アクションを生成しながら長期的な結果の推論を可能にする。
注目すべきは、$\textbf{FLARE}$は、最小限のアーキテクチャ修正 -- 標準的なビジョン言語アクション(VLA)モデルにいくつかのトークンを追加する -- を必要とするが、大幅なパフォーマンス向上をもたらす。
シングルアームとヒューマノイドテーブルトップ操作にまたがる2つの挑戦的なマルチタスクシミュレーションの模倣学習ベンチマーク、$\textbf{FLARE}$は最先端のパフォーマンスを達成し、事前ポリシー学習のベースラインを最大26%上回っている。
さらに、$\textbf{FLARE}$は、アクションラベルを使わずに人間中心のビデオデモと共同トレーニングする機能をアンロックし、単一のロボットデモに限らず、目に見えない幾何学を持つ新しいオブジェクトへのポリシーの一般化を著しく促進する。
この結果は,暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的かつスケーラブルなアプローチとして$\textbf{FLARE}$を確立した。
関連論文リスト
- HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - Robot Instance Segmentation with Few Annotations for Grasping [10.005879464111915]
セミスーパーバイザードラーニング(SSL)とラーニング・スルー・インタラクション(LTI)を組み合わせた新しいフレームワークを提案する。
提案手法は,自己スーパービジョンによる注釈付きデータを利用して,ラベルのない静止画像から生成された擬似シーケンスを用いて時間的コンテキストを組み込む。
本手法をARMBenchmix-object-toteとOCIDの2つのベンチマークで検証し,最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-01T13:58:32Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。