論文の概要: A Taxonomy for Evaluating Generalist Robot Policies
- arxiv url: http://arxiv.org/abs/2503.01238v1
- Date: Mon, 03 Mar 2025 07:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:37.866075
- Title: A Taxonomy for Evaluating Generalist Robot Policies
- Title(参考訳): ジェネリストロボット政策評価のための分類法
- Authors: Jensen Gao, Suneel Belkhale, Sudeep Dasari, Ashwin Balakrishna, Dhruv Shah, Dorsa Sadigh,
- Abstract要約: 一般化の評価と定量化は、現代ロボット工学のワイルドウェストである。
本稿では,視覚的,意味的,行動的一般化を中心に構築されたロボット操作のための一般化の分類であるSTAR-Genを提案する。
我々は,様々な最先端モデルをベンチマークで評価し,実際の分類学の有用性を実証する。
- 参考スコア(独自算出の注目度): 29.437786401917702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning for robotics promises to unlock generalization to novel tasks and environments. Guided by this promise, many recent works have focused on scaling up robot data collection and developing larger, more expressive policies to achieve this. But how do we measure progress towards this goal of policy generalization in practice? Evaluating and quantifying generalization is the Wild West of modern robotics, with each work proposing and measuring different types of generalization in their own, often difficult to reproduce, settings. In this work, our goal is (1) to outline the forms of generalization we believe are important in robot manipulation in a comprehensive and fine-grained manner, and (2) to provide reproducible guidelines for measuring these notions of generalization. We first propose STAR-Gen, a taxonomy of generalization for robot manipulation structured around visual, semantic, and behavioral generalization. We discuss how our taxonomy encompasses most prior notions of generalization in robotics. Next, we instantiate STAR-Gen with a concrete real-world benchmark based on the widely-used Bridge V2 dataset. We evaluate a variety of state-of-the-art models on this benchmark to demonstrate the utility of our taxonomy in practice. Our taxonomy of generalization can yield many interesting insights into existing models: for example, we observe that current vision-language-action models struggle with various types of semantic generalization, despite the promise of pre-training on internet-scale language datasets. We believe STAR-Gen and our guidelines can improve the dissemination and evaluation of progress towards generalization in robotics, which we hope will guide model design and future data collection efforts. We provide videos and demos at our website stargen-taxonomy.github.io.
- Abstract(参考訳): ロボットのための機械学習は、新しいタスクや環境への一般化を開放することを約束する。
この約束に導かれた最近の多くの研究は、ロボットのデータ収集のスケールアップと、これを実現するためのより大きく、より表現力豊かなポリシーの開発に重点を置いている。
しかし、政策の一般化というこの目標に向けて、どのように進展を測るか。
一般化の評価と定量化は、現代ロボット工学のワイルド・ウェストであり、それぞれの研究は異なる種類の一般化をそれぞれ独自の方法で提案し、測定し、しばしば再現することが困難である。
本研究の目的は,(1)ロボット操作において重要な一般化の形式を包括的かつきめ細かな方法で概説すること,(2)これらの一般化の考え方を測定するための再現可能なガイドラインを提供することである。
まず,視覚的,意味的,行動的一般化を中心に構築されたロボット操作のための一般化の分類であるSTAR-Genを提案する。
我々は,我々の分類学がロボット工学における一般化の最も先行した概念をいかに包含しているかを論じる。
次に、広く使われているBridge V2データセットに基づいた具体的な実世界のベンチマークでSTAR-Genをインスタンス化する。
我々はこのベンチマークで様々な最先端モデルを評価し、実際には我々の分類学の有用性を実証する。
例えば、インターネットスケールの言語データセットで事前学習が約束されているにもかかわらず、現在のビジョン言語アクションモデルが様々な種類の意味一般化に苦しむのを観察する。
我々はSTAR-Genと我々のガイドラインがロボット工学における一般化に向けた進歩の広めと評価を改善することができると考えている。
stargen-taxonomy.github.io.comでビデオとデモを提供しています。
関連論文リスト
- $π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization [81.73746512639283]
広義の一般化を実現するために異種タスクのコトレーニングを利用する$pi_0.5$に基づく新しいモデルについて述べる。
本研究では,エンド・ツー・エンドの学習支援ロボットシステムが,長期的かつ巧妙な操作能力を発揮することを初めて実証する。
論文 参考訳(メタデータ) (2025-04-22T17:31:29Z) - DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping [14.511049253735834]
汎用ロボットは任意のシナリオで多様な物体を把握できなければならない。
私たちのソリューションはDexGraspVLAです。これは、事前訓練されたビジョンランゲージモデルをハイレベルタスクプランナとして利用する階層的なフレームワークです。
本手法は, 数千の未確認物体, 照明, 背景の組み合わせで90%以上の成功率を達成する。
論文 参考訳(メタデータ) (2025-02-28T09:57:20Z) - Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Grounding Robot Policies with Visuomotor Language Guidance [15.774237279917594]
ロボットポリシーを現在の状況に基盤付けるためのエージェントベースのフレームワークを提案する。
提案するフレームワークは、特定の役割のために設計された会話エージェントのセットで構成されている。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。
コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文 参考訳(メタデータ) (2023-12-14T10:02:55Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。