論文の概要: A Taxonomy for Evaluating Generalist Robot Policies
- arxiv url: http://arxiv.org/abs/2503.01238v1
- Date: Mon, 03 Mar 2025 07:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:22.026754
- Title: A Taxonomy for Evaluating Generalist Robot Policies
- Title(参考訳): ジェネリストロボット政策評価のための分類法
- Authors: Jensen Gao, Suneel Belkhale, Sudeep Dasari, Ashwin Balakrishna, Dhruv Shah, Dorsa Sadigh,
- Abstract要約: 一般化の評価と定量化は、現代ロボット工学のワイルドウェストである。
本稿では,視覚的,意味的,行動的一般化を中心に構築されたロボット操作のための一般化の分類であるSTAR-Genを提案する。
我々は,様々な最先端モデルをベンチマークで評価し,実際の分類学の有用性を実証する。
- 参考スコア(独自算出の注目度): 29.437786401917702
- License:
- Abstract: Machine learning for robotics promises to unlock generalization to novel tasks and environments. Guided by this promise, many recent works have focused on scaling up robot data collection and developing larger, more expressive policies to achieve this. But how do we measure progress towards this goal of policy generalization in practice? Evaluating and quantifying generalization is the Wild West of modern robotics, with each work proposing and measuring different types of generalization in their own, often difficult to reproduce, settings. In this work, our goal is (1) to outline the forms of generalization we believe are important in robot manipulation in a comprehensive and fine-grained manner, and (2) to provide reproducible guidelines for measuring these notions of generalization. We first propose STAR-Gen, a taxonomy of generalization for robot manipulation structured around visual, semantic, and behavioral generalization. We discuss how our taxonomy encompasses most prior notions of generalization in robotics. Next, we instantiate STAR-Gen with a concrete real-world benchmark based on the widely-used Bridge V2 dataset. We evaluate a variety of state-of-the-art models on this benchmark to demonstrate the utility of our taxonomy in practice. Our taxonomy of generalization can yield many interesting insights into existing models: for example, we observe that current vision-language-action models struggle with various types of semantic generalization, despite the promise of pre-training on internet-scale language datasets. We believe STAR-Gen and our guidelines can improve the dissemination and evaluation of progress towards generalization in robotics, which we hope will guide model design and future data collection efforts. We provide videos and demos at our website stargen-taxonomy.github.io.
- Abstract(参考訳): ロボットのための機械学習は、新しいタスクや環境への一般化を開放することを約束する。
この約束に導かれた最近の多くの研究は、ロボットのデータ収集のスケールアップと、これを実現するためのより大きく、より表現力豊かなポリシーの開発に重点を置いている。
しかし、政策の一般化というこの目標に向けて、どのように進展を測るか。
一般化の評価と定量化は、現代ロボット工学のワイルド・ウェストであり、それぞれの研究は異なる種類の一般化をそれぞれ独自の方法で提案し、測定し、しばしば再現することが困難である。
本研究の目的は,(1)ロボット操作において重要な一般化の形式を包括的かつきめ細かな方法で概説すること,(2)これらの一般化の考え方を測定するための再現可能なガイドラインを提供することである。
まず,視覚的,意味的,行動的一般化を中心に構築されたロボット操作のための一般化の分類であるSTAR-Genを提案する。
我々は,我々の分類学がロボット工学における一般化の最も先行した概念をいかに包含しているかを論じる。
次に、広く使われているBridge V2データセットに基づいた具体的な実世界のベンチマークでSTAR-Genをインスタンス化する。
我々はこのベンチマークで様々な最先端モデルを評価し、実際には我々の分類学の有用性を実証する。
例えば、インターネットスケールの言語データセットで事前学習が約束されているにもかかわらず、現在のビジョン言語アクションモデルが様々な種類の意味一般化に苦しむのを観察する。
我々はSTAR-Genと我々のガイドラインがロボット工学における一般化に向けた進歩の広めと評価を改善することができると考えている。
stargen-taxonomy.github.io.comでビデオとデモを提供しています。
関連論文リスト
- Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement [41.7426496795769]
オフラインメタRLの効率的な一般化を実現するメタ決定変換器(Meta-DT)を提案する。
我々は、コンテキスト認識の世界モデルを用いて、コンパクトなタスク表現を学習し、それをコンテキスト条件として注入し、タスク指向のシーケンス生成を誘導する。
また,Meta-DTでは,ベースラインが強いのに比べ,少ない,ゼロショットの一般化能力が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-15T09:51:30Z) - Grounding Robot Policies with Visuomotor Language Guidance [15.774237279917594]
ロボットポリシーを現在の状況に基盤付けるためのエージェントベースのフレームワークを提案する。
提案するフレームワークは、特定の役割のために設計された会話エージェントのセットで構成されている。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - GRUtopia: Dream General Robots in a City at Scale [65.08318324604116]
本稿では,各種ロボットを対象とした対話型3D社会「GRUtopia」について紹介する。
GRScenesには100万のインタラクティブな微妙な注釈付きシーンが含まれており、都市規模の環境に自由に組み合わせることができる。
GRResidentsはLarge Language Model (LLM)によって駆動されるNon-Player Character (NPC)システムである。
論文 参考訳(メタデータ) (2024-07-15T17:40:46Z) - Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。
コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文 参考訳(メタデータ) (2023-12-14T10:02:55Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Towards Generalist Robots: A Promising Paradigm via Generative
Simulation [18.704506851738365]
この文書は、一般のロボットへの潜在的な経路に対する著者のビジョンを概説する位置紙として機能する。
著者らは、提案されたパラダイムは、ロボット工学研究の長年の目標を達成するための、実現可能な道であると信じている。
論文 参考訳(メタデータ) (2023-05-17T02:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。