論文の概要: GR-3 Technical Report
- arxiv url: http://arxiv.org/abs/2507.15493v1
- Date: Mon, 21 Jul 2025 10:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.365828
- Title: GR-3 Technical Report
- Title(参考訳): GR-3技術報告
- Authors: Chilam Cheang, Sijin Chen, Zhongren Cui, Yingdong Hu, Liqun Huang, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Xiao Ma, Hao Niu, Wenxuan Ou, Wanli Peng, Zeyu Ren, Haixin Shi, Jiawen Tian, Hongtao Wu, Xin Xiao, Yuyang Xiao, Jiafeng Xu, Yichu Yang,
- Abstract要約: GR-3は、大規模な視覚言語アクション(VLA)モデルである。
抽象概念を含む新しいオブジェクト、環境、命令を一般化する際、例外的な能力を示す。
GR-3は、両手動操作や移動動作を必要とするタスクを含む、長い水平および外接なタスクの処理に長けている。
- 参考スコア(独自算出の注目度): 21.857666871078933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We report our recent progress towards building generalist robot policies, the development of GR-3. GR-3 is a large-scale vision-language-action (VLA) model. It showcases exceptional capabilities in generalizing to novel objects, environments, and instructions involving abstract concepts. Furthermore, it can be efficiently fine-tuned with minimal human trajectory data, enabling rapid and cost-effective adaptation to new settings. GR-3 also excels in handling long-horizon and dexterous tasks, including those requiring bi-manual manipulation and mobile movement, showcasing robust and reliable performance. These capabilities are achieved through a multi-faceted training recipe that includes co-training with web-scale vision-language data, efficient fine-tuning from human trajectory data collected via VR devices, and effective imitation learning with robot trajectory data. In addition, we introduce ByteMini, a versatile bi-manual mobile robot designed with exceptional flexibility and reliability, capable of accomplishing a wide range of tasks when integrated with GR-3. Through extensive real-world experiments, we show GR-3 surpasses the state-of-the-art baseline method, $\pi_0$, on a wide variety of challenging tasks. We hope GR-3 can serve as a step towards building generalist robots capable of assisting humans in daily life.
- Abstract(参考訳): 本稿では,汎用ロボット政策の構築に向けた最近の進歩,GR-3の開発について報告する。
GR-3は、大規模な視覚言語アクション(VLA)モデルである。
抽象概念を含む新しいオブジェクト、環境、命令を一般化する際、例外的な能力を示す。
さらに、最小限の人間の軌道データで効率的に微調整することができ、新しい設定に迅速かつ費用対効果で適応することができる。
GR-3は、両手動操作や移動動作を必要とする作業を含む、長時間の水平および外在的なタスクの処理にも長けており、堅牢で信頼性の高い性能を示している。
これらの機能は、Webスケールの視覚言語データとのコトレーニング、VRデバイスを介して収集された人間の軌跡データからの効率的な微調整、ロボット軌跡データによる効果的な模倣学習を含む、多面的なトレーニングレシピによって実現される。
さらに,優れた柔軟性と信頼性を備えた多機能なバイマニュアル移動ロボットであるByteMiniを導入し,GR-3と統合して幅広いタスクをこなせるようにした。
大規模な実世界の実験を通じて、GR-3 は最先端のベースライン法である $\pi_0$ を様々な課題で超越していることを示す。
GR-3は、人間を日常生活で支援できる汎用ロボットを構築するためのステップとして役立つことを願っている。
関連論文リスト
- Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。
タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。
本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-08T17:52:44Z) - Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models [5.2364456910271935]
自然言語タスク記述から報酬関数を生成するための教師なしパイプラインを提案する。
報酬はシミュレーション環境でRLエージェントを訓練するために使用され、報酬生成プロセスは実現可能性を高めるために形式化される。
ABB YuMiコラボレーティブロボットを用いたシングルアームおよびバイマニュアル操作タスクの広範囲なシミュレーション実験により,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-03-06T10:08:44Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - WildLMa: Long Horizon Loco-Manipulation in the Wild [18.542469512253295]
モバイル操作は、さまざまな現実世界環境にロボットを配置することを目的としている。
本稿では,これらの問題に対処する3つのコンポーネントを持つWildLMaを提案する。
論文 参考訳(メタデータ) (2024-11-22T18:56:56Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。