論文の概要: RLDX-1 Technical Report
- arxiv url: http://arxiv.org/abs/2605.03269v1
- Date: Tue, 05 May 2026 01:40:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.713112
- Title: RLDX-1 Technical Report
- Title(参考訳): RLDX-1技術報告
- Authors: Dongyoung Kim, Huiwon Jang, Myungkyu Koo, Suhyeok Jang, Taeyoung Kim, Beomjun Kim, Byungjun Yoon, Changsung Jang, Daewon Choi, Dongsu Han, Donguk Lee, Heeseung Kwon, Hojin Jeon, Jaehyun Kang, Jaekyoung Bae, Jihyuk Lee, Jimin Lee, John Won, Joonwoo Ahn, Junhyeong Park, Junyoung Sung, Kyungmin Lee, Minseong Han, Minsung Yoon, Sejune Joo, Seonil Son, Seungcheol Park, Seunggeun Cho, Seungjun Moon, Seungku Kim, Yonghoon Dong, Yongjin Cho, Youngchan Kim, Chang Hwan Kim, Dohyeon Kim, Hazel Lee, Heecheol Kim, Hensen Ahn, Hyungkyu Ryu, Hyunsoo Choi, Hyunsoo Shin, Jaeheon Jung, Jaewoo Kim, Jinwook Kim, Joochul Chang, Joonsoo Kim, Junghun Park, Jungwoo Park, Junho Cho, Junhyeok Park, Junwon Lee, Kangwook Lee, Kwanghoon Kim, Kyoungwhan Choe, Manoj Bhadu, Nayoung Oh, Sangjun Kim, Sangwoo Kim, Seunghoon Shim, Seunghyun Kim, Seungjun Lee, Seungyup Ka, Sungryol Yang, Wook Jung, Yashu Shukla, Yeonjae Lee, Yeonwoo Bae, Jinwoo Shin,
- Abstract要約: マルチストリーム動作変換器(Multi-Stream Action Transformer:MSAT)上に構築したデクスタス操作のための汎用ロボットポリシーRTDX-1を紹介する。
経験的評価により、RLDX-1は最新のフロンティア・ビジョン・ランゲージ・アクションモデルよりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 74.70437517338186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Vision-Language-Action models (VLAs) have shown remarkable progress toward human-like generalist robotic policies through the versatile intelligence (i.e. broad scene understanding and language-conditioned generalization) inherited from pre-trained Vision-Language Models, they still struggle with complex real-world tasks requiring broader functional capabilities (e.g. motion awareness, memory-aware decision making, and physical sensing). To address this, we introduce RLDX-1, a general-purpose robotic policy for dexterous manipulation built on the Multi-Stream Action Transformer (MSAT), an architecture that unifies these capabilities by integrating heterogeneous modalities through modality-specific streams with cross-modal joint self-attention. RLDX-1 further combines this architecture with system-level design choices, including synthesizing training data for rare manipulation scenarios, learning procedures specialized for human-like manipulation, and inference optimizations for real-time deployment. Through empirical evaluation, we show that RLDX-1 consistently outperforms recent frontier VLAs (e.g. $π_{0.5}$ and GR00T N1.6) across both simulation benchmarks and real-world tasks that require broad functional capabilities beyond general versatility. In particular, RLDX-1 shows superiority in ALLEX humanoid tasks by achieving success rates of 86.8% while $π_{0.5}$ and GR00T N1.6 achieve around 40%, highlighting the ability of RLDX-1 to control a high-DoF humanoid robot under diverse functional demands. Together, these results position RLDX-1 as a promising step toward reliable VLAs for complex, contact-rich, and dynamic real-world dexterous manipulation.
- Abstract(参考訳): VLA(Vision-Language-Action Model)は、訓練済みのVision-Language Modelsから受け継いだ多目的知性(広視野理解と言語条件一般化)を通じて、人間のような汎用的なロボットポリシーへの顕著な進歩を示す一方で、より機能的な機能を必要とする複雑な現実世界のタスク(例えば、運動認識、メモリ認識決定、身体感覚)に苦戦している。
マルチストリーム動作変換器(Multi-Stream Action Transformer:MSAT)上に構築された,汎用ロボット操作のための汎用的ロボットポリシーであるRDDX-1を導入する。
RLDX-1はこのアーキテクチャを、希少な操作シナリオのためのトレーニングデータの合成、ヒューマンライクな操作に特化した学習手順、リアルタイムデプロイメントのための推論最適化など、システムレベルの設計選択と組み合わせている。
実験的な評価により, RLDX-1 は, 一般の汎用性を超えた広範な機能機能機能を必要とするシミュレーションベンチマークと実世界のタスクの両方において, 最新のフロンティア VLA (eg $π_{0.5}$ および GR00T N1.6) を一貫して上回ることを示す。
特に、ALEXのヒューマノイドタスクは86.8%、$π_{0.5}$とGR00T N1.6は40%程度で優れており、RLDX-1が機能的な要求に応じてハイDoFヒューマノイドロボットを制御する能力を強調している。
これらの結果は、RLDX-1を複雑な、接触に富んだ、ダイナミックな現実世界のデキスタラスな操作のための信頼性の高いVLAに向けた有望なステップと位置づけている。
関連論文リスト
- DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - Cross-Hand Latent Representation for Vision-Language-Action Models [49.32460749933983]
器用な操作のための信頼性の高い視覚言語アクションモデルを訓練するには、多くのロボットハンドにわたる大規模な実演が必要である。
XL-VLAは視覚・言語・アクション・フレームワークであり,多種多様な手間で共有される潜在行動空間と統合される。
論文 参考訳(メタデータ) (2026-03-10T18:50:57Z) - DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation [14.050551792714083]
ヒューマン・イン・ザ・ループ(HiL)学習は、ロボットポリシーを洗練するための強力なメカニズムであることが証明されている。
DexHiLはDexterous VLAモデルのための最初の統合アームハンドヒューマン・イン・ザ・ループ・フレームワークである。
論文 参考訳(メタデータ) (2026-03-10T02:55:27Z) - HoloBrain-0 Technical Report [24.68330043768013]
HoloBrain-0はVLA(Vision-Language-Action)フレームワークである。
本システムの中核となるVLAアーキテクチャは,マルチビューカメラパラメータやキネマティックな記述を含む,ロボットのエンボディメントを明示的に組み込んだ新しいアーキテクチャである。
1) 強力な事前トレーニングされたVLA基盤、(2) 複数のシミュレーションスイートと実世界のタスクのためのトレーニング後のチェックポイント、(3) データキュレーション、モデルトレーニング、デプロイメントのためのフルスタックのVLAインフラストラクチャであるRoboOrchardを含む、HoloBrainエコシステム全体をオープンソースにしています。
論文 参考訳(メタデータ) (2026-02-12T15:21:04Z) - RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization [31.40401674436269]
RDT2は、7BパラメータVLM上に構築されたロボット基盤モデルであり、オープン語彙タスクのための新しい実施形態のゼロショット展開を可能にする。
私たちは、さまざまな家族で1万時間以上のデモを行い、拡張されたエンボディメントに依存しないユニバーサルマニピュレーションインタフェース(UMI)を使って、オープンソースのロボットデータセットの1つを収集しました。
提案手法では,Residual Vector Quantization (RVQ), flow-matching, およびリアルタイム推論のための蒸留により, 個別の言語知識を連続的な制御と整合させる新しい3段階学習法を用いる。
論文 参考訳(メタデータ) (2026-02-03T09:38:23Z) - RoboMIND 2.0: A Multimodal, Bimanual Mobile Manipulation Dataset for Generalizable Embodied Intelligence [59.39508501733987]
本稿では,RoboMIND 2.0について紹介する。これは310K以上のデュアルアーム操作トラジェクトリからなる,総合的な実世界のデータセットである。
コンタクトリッチで空間的に拡張されたタスクの研究を支援するため、データセットには12Kの触覚強調エピソードと20Kの移動操作トラジェクトリが組み込まれている。
RoboMIND 2.0の可能性をフル活用するために、オフライン強化学習により最適化された階層型デュアルシステムフレームワークであるMIND-2システムを提案する。
論文 参考訳(メタデータ) (2025-12-31T05:59:40Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment [13.582337741042773]
VLA(Vision-Language-Action)モデルは、知覚、言語、制御を統一し、ロボットがマルチモーダル理解を通じて多様なタスクを実行できる強力なフレームワークとして登場した。
現行のVLAモデルは一般に大量のパラメータを含んでおり、大規模なロボットデータの事前トレーニングに大きく依存しているため、トレーニング中に高い計算コストがかかり、リアルタイム推論へのデプロイが制限される。
本稿では,ロボットデータを事前学習することなく高い性能を維持しつつ,計算を削減し,デプロイメント効率を向上させる軽量VLAモデルであるEvo-1を提案する。
論文 参考訳(メタデータ) (2025-11-06T17:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。