論文の概要: Universal Actions for Enhanced Embodied Foundation Models
- arxiv url: http://arxiv.org/abs/2501.10105v2
- Date: Sat, 08 Mar 2025 13:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:43.915175
- Title: Universal Actions for Enhanced Embodied Foundation Models
- Title(参考訳): ファンデーションモデル強化のためのユニバーサルアクション
- Authors: Jinliang Zheng, Jianxiong Li, Dongxiu Liu, Yinan Zheng, Zhihao Wang, Zhonghong Ou, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Xianyuan Zhan,
- Abstract要約: 我々はUniversal Action Spaceで動作する新しい基礎モデリングフレームワークUniActを紹介する。
我々の学習した普遍行動は、共有された構造的特徴を利用して、多様なロボット間での一般的な原子の挙動を捉えます。
0.5BでのUniActのインスタンス化は、様々な実世界およびシミュレーションロボットの広範囲な評価において、14倍のSOTAを具現化した基礎モデルより優れている。
- 参考スコア(独自算出の注目度): 25.755178700280933
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training on diverse, internet-scale data is a key factor in the success of recent large foundation models. Yet, using the same recipe for building embodied agents has faced noticeable difficulties. Despite the availability of many crowd-sourced embodied datasets, their action spaces often exhibit significant heterogeneity due to distinct physical embodiment and control interfaces for different robots, causing substantial challenges in developing embodied foundation models using cross-domain data. In this paper, we introduce UniAct, a new embodied foundation modeling framework operating in a Universal Action Space. Our learned universal actions capture the generic atomic behaviors across diverse robots by exploiting their shared structural features, and enable enhanced cross-domain data utilization and cross-embodiment generalizations by eliminating the notorious heterogeneity. The universal actions can be efficiently translated back to heterogeneous actionable commands by simply adding embodiment-specific details, from which fast adaptation to new robots becomes simple and straightforward. Our 0.5B instantiation of UniAct outperforms 14X larger SOTA embodied foundation models in extensive evaluations on various real-world and simulation robots, showcasing exceptional cross-embodiment control and adaptation capability, highlighting the crucial benefit of adopting universal actions. Project page: https://github.com/2toinf/UniAct
- Abstract(参考訳): 多様なインターネット規模のデータのトレーニングは、最近の大規模な基盤モデルの成功の鍵となる要素である。
しかし、同じレシピを使ってエンボディエージェントを構築することは、目立った困難に直面している。
多くのクラウドソースのエンボディドデータセットが利用可能であるにもかかわらず、それらのアクションスペースは、異なるロボットのための異なる物理的エンボディメントと制御インターフェースのために、しばしば顕著な異種性を示し、クロスドメインデータを用いたエンボディド基礎モデルの開発において重大な課題を引き起こした。
本稿では,Universal Action Spaceで動作する新しい基礎モデリングフレームワークUniActを紹介する。
我々の学習した普遍行動は、共有された構造的特徴を利用して、多様なロボット間での一般的な原子の挙動を捉え、悪名高い不均一性を排除して、クロスドメインデータ利用とクロスエボディメントの一般化を可能にする。
ユニバーサルアクションは、エボディメント固有の詳細を単に追加するだけで、効率よく異種動作可能なコマンドに変換でき、そこから新しいロボットへの高速な適応が簡単で簡単になる。
0.5BでのUniActのインスタンス化は、様々な実世界とシミュレーションロボットの広範囲な評価において、14倍のSOTAを具現化した基礎モデルより優れており、例外的なクロス・エボディメント制御と適応能力を示し、普遍的行動を採用するという重要な利点を浮き彫りにしている。
プロジェクトページ: https://github.com/2toinf/UniAct
関連論文リスト
- Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Capability-Aware Shared Hypernetworks for Flexible Heterogeneous Multi-Robot Coordination [2.681242476043447]
本稿では,単一アーキテクチャが各ロボットと現在の状況に動的に適応できるように,能力認識型共有ハイパーネットワークス(CASH)を提案する。
CASHは、ローカルな観察とロボットの個人的および集団的能力に基づいて、各ロボットに適応可能な共有意思決定戦略を符号化する。
論文 参考訳(メタデータ) (2025-01-10T15:39:39Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [60.36381142741252]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおいて,それぞれ51.79%,60.36%の増加率を示した。
GRAPEは、安全性と効率、衝突速度を44.31%、ロールアウト期間を11.15%削減するなど、様々な目的に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation [49.03165169369552]
さまざまな種類のロボットにまたがって単一のポリシーを訓練することによって、ロボット学習はより広範囲で多様なデータセットを活用することができる。
そこで我々はCrossFormerを提案する。CrossFormerはスケーラブルでフレキシブルなトランスフォーマーベースのポリシーで、どんな実施形態からでもデータを消費できる。
我々は、同じネットワークウェイトがシングルアームとデュアルアームの操作システム、車輪付きロボット、クワッドコプター、四足歩行など、非常に異なるロボットを制御できることを実証した。
論文 参考訳(メタデータ) (2024-08-21T17:57:51Z) - A Novel Cross-Perturbation for Single Domain Generalization [54.612933105967606]
単一ドメインの一般化は、モデルが単一のソースドメインでトレーニングされたときに未知のドメインに一般化する能力を高めることを目的としている。
トレーニングデータの限られた多様性は、ドメイン不変の特徴の学習を妨げ、結果として一般化性能を損なう。
トレーニングデータの多様性を高めるために,CPerbを提案する。
論文 参考訳(メタデータ) (2023-08-02T03:16:12Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。