論文の概要: GRAPE: Generalizing Robot Policy via Preference Alignment
- arxiv url: http://arxiv.org/abs/2411.19309v1
- Date: Thu, 28 Nov 2024 18:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:21:21.616864
- Title: GRAPE: Generalizing Robot Policy via Preference Alignment
- Title(参考訳): GRAPE: 優先順位アライメントによるロボット政策の一般化
- Authors: Zijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao,
- Abstract要約: GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおいて,それぞれ51.79%,60.36%の増加率を示した。
GRAPEは、安全性と効率、衝突速度を44.31%、ロールアウト期間を11.15%削減するなど、様々な目的に合わせることができる。
- 参考スコア(独自算出の注目度): 60.36381142741252
- License:
- Abstract: Despite the recent advancements of vision-language-action (VLA) models on a variety of robotics tasks, they suffer from critical issues such as poor generalizability to unseen tasks, due to their reliance on behavior cloning exclusively from successful rollouts. Furthermore, they are typically fine-tuned to replicate demonstrations collected by experts under different settings, thus introducing distribution bias and limiting their adaptability to diverse manipulation objectives, such as efficiency, safety, and task completion. To bridge this gap, we introduce GRAPE: Generalizing Robot Policy via Preference Alignment. Specifically, GRAPE aligns VLAs on a trajectory level and implicitly models reward from both successful and failure trials to boost generalizability to diverse tasks. Moreover, GRAPE breaks down complex manipulation tasks to independent stages and automatically guides preference modeling through customized spatiotemporal constraints with keypoints proposed by a large vision-language model. Notably, these constraints are flexible and can be customized to align the model with varying objectives, such as safety, efficiency, or task success. We evaluate GRAPE across a diverse array of tasks in both real-world and simulated environments. Experimental results demonstrate that GRAPE enhances the performance of state-of-the-art VLA models, increasing success rates on in-domain and unseen manipulation tasks by 51.79% and 60.36%, respectively. Additionally, GRAPE can be aligned with various objectives, such as safety and efficiency, reducing collision rates by 44.31% and rollout step-length by 11.15%, respectively. All code, models, and data are available at https://grape-vla.github.io/
- Abstract(参考訳): 近年、視覚言語アクション(VLA)モデルが様々なロボティクスタスクで進歩しているにもかかわらず、ロールアウトの成功にのみ依存しているため、目に見えるタスクに対する一般化性の低下などの重要な問題に悩まされている。
さらに、それらは通常、異なる設定下で専門家が収集したデモを再現するように微調整され、分散バイアスを導入し、効率性、安全性、タスク完了といった様々な操作目的に適応性を制限する。
このギャップを埋めるために、私たちはGRAPE: Generalizing Robot Policy via Preference Alignmentを紹介します。
具体的には、GRAPEはVLAを軌道レベルに整列させ、成功と失敗の双方から報酬を暗黙的にモデル化し、多様なタスクへの一般化性を高める。
さらに、GRAPEは複雑な操作タスクを独立したステージに分割し、大規模な視覚言語モデルによって提案されるキーポイントを用いて、カスタマイズされた時空間制約により、好みのモデリングを自動的にガイドする。
特に、これらの制約は柔軟であり、安全性、効率性、タスクの成功など、さまざまな目的にモデルを合わせるようにカスタマイズできる。
GRAPEは実環境とシミュレーション環境の両方において多様なタスクにまたがって評価される。
実験の結果、GRAPEは最先端のVLAモデルの性能を高め、ドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%と60.36%向上させた。
さらに、GRAPEは安全性や効率、衝突速度の44.31%、ロールアウトの11.15%といった様々な目的に合わせることができる。
すべてのコード、モデル、データはhttps://grape-vla.github.io/で公開されている。
関連論文リスト
- HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。