論文の概要: Universal Actions for Enhanced Embodied Foundation Models
- arxiv url: http://arxiv.org/abs/2501.10105v1
- Date: Fri, 17 Jan 2025 10:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:16.117453
- Title: Universal Actions for Enhanced Embodied Foundation Models
- Title(参考訳): ファンデーションモデル強化のためのユニバーサルアクション
- Authors: Jinliang Zheng, Jianxiong Li, Dongxiu Liu, Yinan Zheng, Zhihao Wang, Zhonghong Ou, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Xianyuan Zhan,
- Abstract要約: トークン化されたユニバーサルアクションスペースで動作する新しい基礎モデリングフレームワークUniActを紹介する。
我々の学習した普遍行動は、共有された構造的特徴を利用して、多様なロボット間での一般的な原子の挙動を捉えます。
0.5BでのUniActのインスタンス化は、様々な実世界およびシミュレーションロボットの広範囲な評価において、14倍のSOTAを具現化した基礎モデルより優れている。
- 参考スコア(独自算出の注目度): 25.755178700280933
- License:
- Abstract: Training on diverse, internet-scale data is a key factor in the success of recent large foundation models. Yet, using the same recipe for building embodied agents has faced noticeable difficulties. Despite the availability of many crowd-sourced embodied datasets, their action spaces often exhibit significant heterogeneity due to distinct physical embodiment and control interfaces for different robots, causing substantial challenges in developing embodied foundation models using cross-domain data. In this paper, we introduce UniAct, a new embodied foundation modeling framework operating in a tokenized Universal Action Space. Our learned universal actions capture the generic atomic behaviors across diverse robots by exploiting their shared structural features, and enable enhanced cross-domain data utilization and cross-embodiment generalizations by eliminating the notorious heterogeneity. The universal actions can be efficiently translated back to heterogeneous actionable commands by simply adding embodiment-specific details, from which fast adaptation to new robots becomes simple and straightforward. Our 0.5B instantiation of UniAct outperforms 14X larger SOTA embodied foundation models in extensive evaluations on various real-world and simulation robots, showcasing exceptional cross-embodiment control and adaptation capability, highlighting the crucial benefit of adopting universal actions. Project page: https://github.com/2toinf/UniAct
- Abstract(参考訳): 多様なインターネット規模のデータのトレーニングは、最近の大規模な基盤モデルの成功の鍵となる要素である。
しかし、同じレシピを使ってエンボディエージェントを構築することは、目立った困難に直面している。
多くのクラウドソースのエンボディドデータセットが利用可能であるにもかかわらず、それらのアクションスペースは、異なるロボットのための異なる物理的エンボディメントと制御インターフェースのために、しばしば顕著な異種性を示し、クロスドメインデータを用いたエンボディド基礎モデルの開発において重大な課題を引き起こした。
本稿では,トークン化されたユニバーサルアクション空間で動作する新しい基礎モデリングフレームワークUniActを紹介する。
我々の学習した普遍行動は、共有された構造的特徴を利用して、多様なロボット間での一般的な原子の挙動を捉え、悪名高い不均一性を排除して、クロスドメインデータ利用とクロスエボディメントの一般化を可能にする。
ユニバーサルアクションは、エボディメント固有の詳細を単に追加するだけで、効率よく異種動作可能なコマンドに変換でき、そこから新しいロボットへの高速な適応が簡単で簡単になる。
0.5BでのUniActのインスタンス化は、様々な実世界とシミュレーションロボットの広範囲な評価において、14倍のSOTAを具現化した基礎モデルより優れており、例外的なクロス・エボディメント制御と適応能力を示し、普遍的行動を採用するという重要な利点を浮き彫りにしている。
プロジェクトページ: https://github.com/2toinf/UniAct
関連論文リスト
- Human-Humanoid Robots Cross-Embodiment Behavior-Skill Transfer Using Decomposed Adversarial Learning from Demonstration [9.42179962375058]
本稿では,デジタル人間モデルを共通プロトタイプとして使用することにより,データのボトルネックを低減するための転送可能なフレームワークを提案する。
このモデルは、人間による実演から、敵対的な模倣を通して行動プリミティブを学習し、複雑なロボット構造を機能的な構成要素に分解する。
本フレームワークは,多種多様な構成のヒューマノイドロボット5体を用いて検証した。
論文 参考訳(メタデータ) (2024-12-19T18:41:45Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - Learning Generalizable 3D Manipulation With 10 Demonstrations [16.502781729164973]
10個のデモから操作スキルを学習する新しいフレームワークを提案する。
シミュレーションベンチマークと実世界のロボットシステムの両方に関する広範な実験を通じて、我々のフレームワークを検証する。
この研究は、現実世界のアプリケーションにおいて、効率的で一般化可能な操作スキル学習を前進させる大きな可能性を示している。
論文 参考訳(メタデータ) (2024-11-15T14:01:02Z) - Diffusion Transformer Policy: Scaling Diffusion Transformer for Generalist Vision-Language-Action Learning [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation [49.03165169369552]
さまざまな種類のロボットにまたがって単一のポリシーを訓練することによって、ロボット学習はより広範囲で多様なデータセットを活用することができる。
そこで我々はCrossFormerを提案する。CrossFormerはスケーラブルでフレキシブルなトランスフォーマーベースのポリシーで、どんな実施形態からでもデータを消費できる。
我々は、同じネットワークウェイトがシングルアームとデュアルアームの操作システム、車輪付きロボット、クワッドコプター、四足歩行など、非常に異なるロボットを制御できることを実証した。
論文 参考訳(メタデータ) (2024-08-21T17:57:51Z) - A Novel Cross-Perturbation for Single Domain Generalization [54.612933105967606]
単一ドメインの一般化は、モデルが単一のソースドメインでトレーニングされたときに未知のドメインに一般化する能力を高めることを目的としている。
トレーニングデータの限られた多様性は、ドメイン不変の特徴の学習を妨げ、結果として一般化性能を損なう。
トレーニングデータの多様性を高めるために,CPerbを提案する。
論文 参考訳(メタデータ) (2023-08-02T03:16:12Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。