Fugu-MT 論文翻訳(概要): COBALT: Crowdsourcing Robot Learning via Cloud-Based Teleoperation with Smartphones

論文の概要: COBALT: Crowdsourcing Robot Learning via Cloud-Based Teleoperation with Smartphones

arxiv url: http://arxiv.org/abs/2605.19138v2
Date: Wed, 20 May 2026 06:58:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 14:55:44.335628
Title: COBALT: Crowdsourcing Robot Learning via Cloud-Based Teleoperation with Smartphones
Title（参考訳）: COBALT: スマートフォンによるクラウドベースの遠隔操作によるロボット学習のクラウドソーシング
Authors: Ayush Agarwal, Ansh Gandhi, Jeremy A. Collins, Omar Rayyan, Aryan Sarswat, Ranjani Koushik, Masoud Moghani, Ajay Mandlekar, Animesh Garg,
Abstract要約: COBALTは、ロボット学習の民主化を目的とした遠隔操作プラットフォームである。単一のGPU上で複数のユーザによる同時遠隔操作をサポートする。オペレータは、一般的なデバイスを使って、地球上のほぼどこからでも接続できる。
参考スコア（独自算出の注目度）: 26.16726235836184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The scarcity of large-scale, high-quality demonstration data remains a bottleneck in scaling imitation learning for robotic manipulation. We present COBALT, a teleoperation platform designed to democratize robot learning at scale both in simulation and in the real world. By leveraging vectorized environments, our scalable, load-balanced infrastructure supports concurrent teleoperation by multiple users on a single GPU, yielding a significant reduction in teleoperation cost. Operators can connect from nearly anywhere on Earth using commonly available devices, including single or dual smartphones, VR headsets, 3D mice, and keyboards. An inmemory data cache and efficient video streaming keep control and rendering synchronous, sustaining dozens of concurrent users at 20 Hz with sub-100 ms end-to-end latency for up to 8 concurrent users per GPU. We also demonstrate stable operation supporting 256 simulated clients across 8 GPUs, underscoring the system's ability to scale across hardware and within individual servers. We perform a comprehensive user study showing that phone-based teleoperation performs comparably to or better than specialized hardware, enabling faster, more ergonomic data collection. To ensure data quality, COBALT logs a suite of real-time metrics to automatically filter suboptimal demonstrations. We further demonstrate that a structured user training curriculum significantly improves data collection quality. Guided by insights from our user study, we crowdsource the collection of a large-scale, high-quality pilot dataset with 7500+ demonstrations (50+ hours) collected with smartphones across nine countries over five days. We validate the dataset's quality by training state-of-the-art imitation learning algorithms. Please visit https://cobalt-teleop.github.io/ for more details.
Abstract（参考訳）: 大規模で高品質なデモデータの不足は、ロボット操作のための模倣学習をスケールする上で、依然としてボトルネックとなっている。我々は,シミュレーションと実世界の両方において,ロボット学習を大規模に民主化するための遠隔操作プラットフォームCOBALTを提案する。ベクトル化された環境を活用することで、スケーラブルでロードバランスのよいインフラストラクチャは、1つのGPU上で複数のユーザによる同時遠隔操作をサポートします。オペレータは、シングルまたはデュアルのスマートフォン、VRヘッドセット、3Dマウス、キーボードなど、地球上のほぼどこからでも接続することができる。インメモリのデータキャッシュと効率的なビデオストリーミングの同期制御とレンダリングが可能で、GPU当たり最大8人のコンカレントユーザに対して、100ms以下のエンドツーエンドレイテンシで、数十人のコンカレントユーザを20Hzで維持する。また、8つのGPUで256のシミュレーションクライアントをサポートする安定した操作を実証し、ハードウェアと個々のサーバにまたがってシステムを拡張可能であることを示す。我々は、電話による遠隔操作が専用ハードウェアと互換性があり、より高速で人間工学的なデータ収集を可能にしていることを示す総合的なユーザスタディを実行する。データ品質を保証するため、COBALTはリアルタイムメトリクスのスイートをログして、サブ最適化デモを自動的にフィルタリングする。さらに、構造化されたユーザトレーニングカリキュラムは、データ収集の品質を大幅に改善することを示した。ユーザー調査から得た洞察により、私たちは大規模な高品質のパイロットデータセットをクラウドソーシングし、7500以上のデモ(50時間以上)で5日間にわたって9カ国のスマートフォンで収集しました。我々は、最先端の模倣学習アルゴリズムを訓練することにより、データセットの品質を評価する。詳細はhttps://cobalt-teleop.github.io/を参照してください。

関連論文リスト

SurgSync: Time-Synchronized Multi-Modal Data Collection Framework and Dataset for Surgical Robotics [10.525174085495314]
SurgSyncは、オフラインおよびオンライン同期を備えたマルチモーダルデータ収集フレームワークで、トレーニングとリアルタイム推論をサポートする。このフレームワークはda Vinci Research Kit (dVRK)で実装されている。
論文参考訳（メタデータ） (2026-03-06T22:38:45Z)
MobileManiBench: Simplifying Model Verification for Mobile Manipulation [70.30578259859512]
MobileManiBenchは、モバイルベースのロボット操作のための大規模なベンチマークである。 MobileManiBenchには、2つのモバイルプラットフォーム(パラレルグリッパーとデキソラスハンドロボット)、2つの同期カメラ(頭と右手首)、630のオブジェクト(オープン、クローズ、プル、プッシュ、ピック)、5つのスキル(オープン、クローズ、プッシュ、ピック)、100以上のタスクが現実的なシーンで実行される。
論文参考訳（メタデータ） (2026-02-05T02:49:52Z)
How to Train Your Robots? The Impact of Demonstration Modality on Imitation Learning [25.798669976935283]
模倣学習は、ユーザが提供するデータを用いてロボットポリシーを学ぶための有望なアプローチである。本研究は,体操教育,VRコントローラーを用いた遠隔操作,宇宙空間コントローラを用いた遠隔操作など,低コストな実証モダリティを比較した。以上の結果から, 身体美学教育はロボットの制御において最も直感的に評価され, 最良下流学習性能のための清潔なデータを提供することがわかった。
論文参考訳（メタデータ） (2025-03-10T07:57:26Z)
FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文参考訳（メタデータ） (2023-06-08T13:11:20Z)
ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文参考訳（メタデータ） (2021-12-11T06:31:21Z)
DeepSpectrumLite: A Power-Efficient Transfer Learning Framework for Embedded Speech and Audio Processing from Decentralised Data [0.0]
DeepSpectrumLiteは、オンデバイス音声と音声認識のためのオープンソースの軽量転送学習フレームワークです。このフレームワークは、Mel-spectrogramプロットを生の音声信号からオンザフライで作成し、拡張する。 DenseNet121モデルがコンシューマグレードのMotorola moto e7+スマートフォンで使用される場合、パイプライン全体を242.0ミリ秒の推論ラグでリアルタイムに実行できる。
論文参考訳（メタデータ） (2021-04-23T14:32:33Z)
TapNet: The Design, Training, Implementation, and Applications of a Multi-Task Learning CNN for Off-Screen Mobile Input [75.05709030478073]
本稿では,スマートフォンのタップを検出するマルチタスクネットワークであるTapNetの設計,トレーニング,実装,応用について述べる。 TapNetはデバイス間のデータから共同で学習し、タップ方向やタップ位置を含む複数のタップ特性を同時に認識することができる。
論文参考訳（メタデータ） (2021-02-18T00:45:41Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)
Real-Time Video Inference on Edge Devices via Adaptive Model Streaming [9.101956442584251]
携帯電話やドローンなどのエッジデバイス上でのリアルタイムビデオ推論は、Deep Neural Networksのコストが高いため、難しい。本稿では、エッジデバイス上での映像推論のための効率的な軽量モデルの性能向上のための新しいアプローチであるAdaptive Model Streaming (AMS)を提案する。
論文参考訳（メタデータ） (2020-06-11T17:25:44Z)
Visually Impaired Aid using Convolutional Neural Networks, Transfer Learning, and Particle Competition and Cooperation [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)、伝達学習、半教師付き学習(SSL)を用いて、視覚障害者支援を目的としたフレームワークを構築することを提案する。計算コストが低く、従って、追加の機器に頼ることなく、現在のスマートフォンで実装することができる。
論文参考訳（メタデータ） (2020-05-09T16:11:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。