論文の概要: Robot-Powered Data Flywheels: Deploying Robots in the Wild for Continual Data Collection and Foundation Model Adaptation
- arxiv url: http://arxiv.org/abs/2511.19647v1
- Date: Mon, 24 Nov 2025 19:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.130479
- Title: Robot-Powered Data Flywheels: Deploying Robots in the Wild for Continual Data Collection and Foundation Model Adaptation
- Title(参考訳): ロボット駆動型データフライホイール:連続データ収集と基礎モデル適応のためのロボットを野生に展開
- Authors: Jennifer Grannen, Michelle Pan, Kenneth Llontop, Cherie Ho, Mark Zolotas, Jeannette Bohg, Dorsa Sadigh,
- Abstract要約: 我々は、FMコンシューマからデータジェネレータにロボットを変換するフレームワークであるRobot-Powered Data Flywheelを紹介した。
このフレームワークを,東アジア図書館に2週間展開されたモバイルマニピュレータであるScanfordでインスタンス化する。
Scanfordは棚を自動でスキャンし、視覚言語モデル(VLM)を使用して本を識別し、ライブラリカタログを利用して人間のアノテーションなしで画像にラベル付けする。
- 参考スコア(独自算出の注目度): 30.993716537141484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models (FM) have unlocked powerful zero-shot capabilities in vision and language, yet their reliance on internet pretraining data leaves them brittle in unstructured, real-world settings. The messy, real-world data encountered during deployment (e.g. occluded or multilingual text) remains massively underrepresented in existing corpora. Robots, as embodied agents, are uniquely positioned to close this gap: they can act in physical environments to collect large-scale, real-world data that enriches FM training with precisely the examples current models lack. We introduce the Robot-Powered Data Flywheel, a framework that transforms robots from FM consumers into data generators. By deploying robots equipped with FMs in the wild, we enable a virtuous cycle: robots perform useful tasks while collecting real-world data that improves both domain-specific adaptation and domain-adjacent generalization. We instantiate this framework with Scanford, a mobile manipulator deployed in the East Asia Library for 2 weeks. Scanford autonomously scans shelves, identifies books using a vision-language model (VLM), and leverages the library catalog to label images without human annotation. This deployment both aids librarians and produces a dataset to finetune the underlying VLM, improving performance on the domain-specific in-the-wild library setting and on domain-adjacent multilingual OCR benchmarks. Using data collected from 2103 shelves, Scanford improves VLM performance on book identification from 32.0% to 71.8% and boosts domain-adjacent multilingual OCR from 24.8% to 46.6% (English) and 30.8% to 38.0% (Chinese), while saving an ~18.7 hrs of human time. These results highlight how robot-powered data flywheels can both reduce human effort in real deployments and unlock new pathways for continually adapting FMs to the messiness of reality. More details are at: https://scanford-robot.github.io
- Abstract(参考訳): ファンデーションモデル(FM)は、視覚と言語における強力なゼロショット機能をアンロックしているが、インターネットの事前トレーニングデータに依存しているため、構造化されていない実世界の環境では不安定である。
デプロイ中に発生する乱雑で現実的なデータ(例えば、隠蔽されたテキストや多言語テキスト)は、既存のコーパスでは大幅に不足しています。
ロボットはこのギャップを埋めるために一意に位置づけられている:それらは物理的な環境で行動し、現在のモデルに欠けている例を正確に組み合わせてFMトレーニングを強化する、大規模で現実世界のデータを集めることができる。
我々は、FMコンシューマからデータジェネレータにロボットを変換するフレームワークであるRobot-Powered Data Flywheelを紹介した。
ロボットは、ドメイン固有の適応とドメイン隣接の一般化の両方を改善するために、現実のデータを収集しながら有用なタスクを遂行する。
このフレームワークを,東アジア図書館に2週間展開されたモバイルマニピュレータであるScanfordでインスタンス化する。
Scanfordは棚を自動でスキャンし、視覚言語モデル(VLM)を使用して本を識別し、ライブラリカタログを利用して人間のアノテーションなしで画像にラベル付けする。
このデプロイメントは、ライブラリリアンを支援し、基盤となるVLMを微調整するためのデータセットを生成し、ドメイン固有のライブラリ設定とドメイン依存の多言語OCRベンチマークのパフォーマンスを改善している。
2103棚から収集したデータを用いて、Scanfordは書籍識別におけるVLMの性能を32.0%から71.8%に改善し、ドメイン依存多言語OCRを24.8%から46.6%(英語)に、30.8%から38.0%(中国語)に向上させ、人間の時間を約18.7時間節約する。
これらの結果は、ロボットによるデータフライホイールが、実際の展開における人間の労力を減らし、FMを常に現実の混乱に適応させる新しい経路をアンロックする方法を強調している。
詳細は以下の通り。
関連論文リスト
- BLAZER: Bootstrapping LLM-based Manipulation Agents with Zero-Shot Data Generation [59.70634559248202]
BLAZERは、自動生成されたトレーニングデータから操作ポリシーを学ぶフレームワークである。
シミュレーション環境と実環境の両方において、BLAZERはゼロショット操作を大幅に改善することを示す。
私たちのコードとデータはプロジェクトのページで公開されます。
論文 参考訳(メタデータ) (2025-10-09T17:59:58Z) - VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing [89.48383845451717]
ロボット学習のためのビジョンエキスパートトランスフォーマーであるVERを提案する。
プレトレーニング中、VERは複数のVFMをビジョンエキスパートライブラリに蒸留する。
そして、タスク関連の専門家を動的に選択するために、軽量なルーティングネットワークのみを微調整する。
論文 参考訳(メタデータ) (2025-10-06T18:00:43Z) - Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments [26.66666135624716]
ゼロショットロボットポリシーのトレーニングとデプロイのためのフレームワークであるロボットユーティリティモデル(RUM)を提案する。
RUMは微調整なしで新しい環境に一般化できる。
キャビネットドアのオープン、引き出しのオープン、ナプキンのピックアップ、紙袋のピックアップ、転倒物の再配向の5つのユーティリティモデルを訓練する。
論文 参考訳(メタデータ) (2024-09-09T17:59:50Z) - AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。
われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。
実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文 参考訳(メタデータ) (2024-01-23T18:45:54Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。