Fugu-MT 論文翻訳(概要): Universal Actions for Enhanced Embodied Foundation Models

論文の概要: Universal Actions for Enhanced Embodied Foundation Models

arxiv url: http://arxiv.org/abs/2501.10105v1
Date: Fri, 17 Jan 2025 10:45:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-20 17:59:09.738851
Title: Universal Actions for Enhanced Embodied Foundation Models
Title（参考訳）: ファンデーションモデル強化のためのユニバーサルアクション
Authors: Jinliang Zheng, Jianxiong Li, Dongxiu Liu, Yinan Zheng, Zhihao Wang, Zhonghong Ou, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Xianyuan Zhan,
Abstract要約: トークン化されたユニバーサルアクションスペースで動作する新しい基礎モデリングフレームワークUniActを紹介する。我々の学習した普遍行動は、共有された構造的特徴を利用して、多様なロボット間での一般的な原子の挙動を捉えます。 0.5BでのUniActのインスタンス化は、様々な実世界およびシミュレーションロボットの広範囲な評価において、14倍のSOTAを具現化した基礎モデルより優れている。
参考スコア（独自算出の注目度）: 25.755178700280933
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Training on diverse, internet-scale data is a key factor in the success of recent large foundation models. Yet, using the same recipe for building embodied agents has faced noticeable difficulties. Despite the availability of many crowd-sourced embodied datasets, their action spaces often exhibit significant heterogeneity due to distinct physical embodiment and control interfaces for different robots, causing substantial challenges in developing embodied foundation models using cross-domain data. In this paper, we introduce UniAct, a new embodied foundation modeling framework operating in a tokenized Universal Action Space. Our learned universal actions capture the generic atomic behaviors across diverse robots by exploiting their shared structural features, and enable enhanced cross-domain data utilization and cross-embodiment generalizations by eliminating the notorious heterogeneity. The universal actions can be efficiently translated back to heterogeneous actionable commands by simply adding embodiment-specific details, from which fast adaptation to new robots becomes simple and straightforward. Our 0.5B instantiation of UniAct outperforms 14X larger SOTA embodied foundation models in extensive evaluations on various real-world and simulation robots, showcasing exceptional cross-embodiment control and adaptation capability, highlighting the crucial benefit of adopting universal actions. Project page: https://github.com/2toinf/UniAct
Abstract（参考訳）: 多様なインターネット規模のデータのトレーニングは、最近の大規模な基盤モデルの成功の鍵となる要素である。しかし、同じレシピを使ってエンボディエージェントを構築することは、目立った困難に直面している。多くのクラウドソースのエンボディドデータセットが利用可能であるにもかかわらず、それらのアクションスペースは、異なるロボットのための異なる物理的エンボディメントと制御インターフェースのために、しばしば顕著な異種性を示し、クロスドメインデータを用いたエンボディド基礎モデルの開発において重大な課題を引き起こした。本稿では,トークン化されたユニバーサルアクション空間で動作する新しい基礎モデリングフレームワークUniActを紹介する。我々の学習した普遍行動は、共有された構造的特徴を利用して、多様なロボット間での一般的な原子の挙動を捉え、悪名高い不均一性を排除して、クロスドメインデータ利用とクロスエボディメントの一般化を可能にする。ユニバーサルアクションは、エボディメント固有の詳細を単に追加するだけで、効率よく異種動作可能なコマンドに変換でき、そこから新しいロボットへの高速な適応が簡単で簡単になる。 0.5BでのUniActのインスタンス化は、様々な実世界とシミュレーションロボットの広範囲な評価において、14倍のSOTAを具現化した基礎モデルより優れており、例外的なクロス・エボディメント制御と適応能力を示し、普遍的行動を採用するという重要な利点を浮き彫りにしている。プロジェクトページ: https://github.com/2toinf/UniAct

関連論文リスト

Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文参考訳（メタデータ） (2025-07-08T17:52:44Z)
From Experts to a Generalist: Toward General Whole-Body Control for Humanoid Robots [34.348365055311326]
BumbleBee (BB) は、モーションクラスタリングとsim-to-real適応を組み合わせたエキスパート・ジェネリストの学習フレームワークである。 BBは最先端の全身制御を実現し、実世界でのアジャイルで堅牢で汎用的なヒューマノイドのパフォーマンスのための新しいベンチマークを設定します。
論文参考訳（メタデータ） (2025-06-15T09:09:34Z)
AnyBody: A Benchmark Suite for Cross-Embodiment Manipulation [59.671764778486995]
ロボット工学におけるスケーラブルで伝達可能な学習を実現する上で、新しい実施形態に対する制御ポリシーの一般化は、依然として根本的な課題である。本稿では,多種多様な形態素を横断する2つの基礎的タスクリーチとプッシュアラウンドに着目し,クロスボデーメント操作の学習のためのベンチマークを紹介する。異なるRLポリシーが複数の形態から学習し、新しい政策に一般化する能力を評価する。
論文参考訳（メタデータ） (2025-05-21T00:21:38Z)
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [32.83715417294052]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文参考訳（メタデータ） (2025-05-09T15:11:13Z)
Towards Embodiment Scaling Laws in Robot Locomotion [36.86431442666063]
複数の実施形態における人工処理法則のスケーリングについて検討する。エンボディメントの数を増やすことで、目に見えないものへの一般化が向上することがわかった。その結果,適応制御の可能性を秘めた汎用ロボット工学への道のりがうかがえる。
論文参考訳（メタデータ） (2025-05-09T03:25:43Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
Capability-Aware Shared Hypernetworks for Flexible Heterogeneous Multi-Robot Coordination [2.681242476043447]
本稿では,単一アーキテクチャが各ロボットと現在の状況に動的に適応できるように,能力認識型共有ハイパーネットワークス(CASH)を提案する。 CASHは、ローカルな観察とロボットの個人的および集団的能力に基づいて、各ロボットに適応可能な共有意思決定戦略を符号化する。
論文参考訳（メタデータ） (2025-01-10T15:39:39Z)
GRAPE: Generalizing Robot Policy via Preference Alignment [60.36381142741252]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。 GRAPEはドメイン内および未確認操作タスクにおいて,それぞれ51.79%,60.36%の増加率を示した。 GRAPEは、安全性と効率、衝突速度を44.31%、ロールアウト期間を11.15%削減するなど、様々な目的に合わせることができる。
論文参考訳（メタデータ） (2024-11-28T18:30:10Z)
Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation [49.03165169369552]
さまざまな種類のロボットにまたがって単一のポリシーを訓練することによって、ロボット学習はより広範囲で多様なデータセットを活用することができる。そこで我々はCrossFormerを提案する。CrossFormerはスケーラブルでフレキシブルなトランスフォーマーベースのポリシーで、どんな実施形態からでもデータを消費できる。我々は、同じネットワークウェイトがシングルアームとデュアルアームの操作システム、車輪付きロボット、クワッドコプター、四足歩行など、非常に異なるロボットを制御できることを実証した。
論文参考訳（メタデータ） (2024-08-21T17:57:51Z)
A Novel Cross-Perturbation for Single Domain Generalization [54.612933105967606]
単一ドメインの一般化は、モデルが単一のソースドメインでトレーニングされたときに未知のドメインに一般化する能力を高めることを目的としている。トレーニングデータの限られた多様性は、ドメイン不変の特徴の学習を妨げ、結果として一般化性能を損なう。トレーニングデータの多様性を高めるために,CPerbを提案する。
論文参考訳（メタデータ） (2023-08-02T03:16:12Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文参考訳（メタデータ） (2022-12-13T18:55:15Z)
PACT: Perception-Action Causal Transformer for Autoregressive Robotics Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2022-09-22T16:20:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。