論文の概要: Benchmarking Affordance Generalization with BusyBox
- arxiv url: http://arxiv.org/abs/2602.05441v1
- Date: Thu, 05 Feb 2026 08:31:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.845693
- Title: Benchmarking Affordance Generalization with BusyBox
- Title(参考訳): BusyBoxによるスケジュールの一般化のベンチマーク
- Authors: Dean Fortier, Timothy Adamson, Tess Hellebrekers, Teresa LaScala, Kofi Ennin, Michael Murray, Andrey Kolobov, Galen Mullins,
- Abstract要約: VLA(Vision-Language-Action)モデルは、一般化の約束により、研究者や実践者の注目を集めている。
本稿では,VLAの可利用性一般化の体系的評価のための物理ベンチマークであるBusyBoxを紹介する。
BusyBoxの亜種をまたいだ一般化は、強力なオープンウェイトにとっても非常に難しいことを実証的に実証した。
- 参考スコア(独自算出の注目度): 12.034349600313556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have been attracting the attention of researchers and practitioners thanks to their promise of generalization. Although single-task policies still offer competitive performance, VLAs are increasingly able to handle commands and environments unseen in their training set. While generalization in vision and language space is undoubtedly important for robust versatile behaviors, a key meta-skill VLAs need to possess is affordance generalization -- the ability to manipulate new objects with familiar physical features. In this work, we present BusyBox, a physical benchmark for systematic semi-automatic evaluation of VLAs' affordance generalization. BusyBox consists of 6 modules with switches, sliders, wires, buttons, a display, and a dial. The modules can be swapped and rotated to create a multitude of BusyBox variations with different visual appearances but the same set of affordances. We empirically demonstrate that generalization across BusyBox variants is highly challenging even for strong open-weights VLAs such as $π_{0.5}$ and GR00T-N1.6. To encourage the research community to evaluate their own VLAs on BusyBox and to propose new affordance generalization experiments, we have designed BusyBox to be easy to build in most robotics labs. We release the full set of CAD files for 3D-printing its parts as well as a bill of materials for (optionally) assembling its electronics. We also publish a dataset of language-annotated demonstrations that we collected using the common bimanual Mobile Aloha robot on the canonical BusyBox configuration. All of the released materials are available at https://microsoft.github.io/BusyBox.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、一般化の約束により、研究者や実践者の注目を集めている。
シングルタスクポリシは依然として競争力のあるパフォーマンスを提供するが、VLAは、トレーニングセットで見えないコマンドや環境を扱うことができるようになっている。
視覚と言語空間の一般化は、ロバストな多目的行動にとって間違いなく重要であるが、重要なメタスキルVLAは、手頃な一般化 -- 慣れ親しんだ物理的特徴を持つ新しいオブジェクトを操作する能力である。
本稿では,VLAの可利用性一般化の体系的半自動評価のための物理ベンチマークであるBusyBoxを紹介する。
BusyBoxは6つのモジュールで構成されており、スイッチ、スライダー、ワイヤ、ボタン、ディスプレイ、ダイヤルがある。
モジュールを切り替えたり回転させたりすることで、さまざまな視覚的外観のBusyBoxのバリエーションを作ることができる。
BusyBox 多様体の一般化は、$π_{0.5}$ や GR00T-N1.6 のような強力なオープンウェイト VLA に対しても非常に困難である。
研究コミュニティがBusyBox上で独自のVLAを評価することを奨励し、新しい余裕の一般化実験を提案するために、BusyBoxをほとんどのロボティクスラボで簡単に構築できるように設計しました。
部品を3DプリントするためのCADファイルの全セットと、電子部品を組み立てるための(オプションで)素材の請求書をリリースする。
また,共通バイマンル移動アロハロボットを用いて,標準BusyBox設定上で収集した言語アノテーションによるデモのデータセットも公開している。
リリースされたすべての資料はhttps://microsoft.github.io/BusyBoxで入手できる。
関連論文リスト
- Maestro: Orchestrating Robotics Modules with Vision-Language Models for Zero-Shot Generalist Robots [54.62646284378409]
我々は、視覚言語モデル(VLM)に関するポリシーを構築し、認識、計画、制御モジュールのキュレートされたセットにカプセル化された特定のロボット機能によって、その汎用能力を増強する。
Maestroでは、VLMコーディングエージェントがこれらのモジュールを現在のタスクとシナリオのためのプログラムポリシーに動的に構成する。
論文 参考訳(メタデータ) (2025-11-02T12:34:37Z) - From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models [5.660635614478238]
VLA(Vision-Language-Action)モデルは、汎用的で汎用的なロボットポリシーを作成することを約束する。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語命令,視覚,オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクの統合スイートを導入する。
論文 参考訳(メタデータ) (2025-06-11T16:52:18Z) - OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation [68.11862866566817]
3D対応のポリシーは、精密なロボット操作タスクにおいて最先端のパフォーマンスを実現するが、見えない指示、シーン、オブジェクトへの一般化に苦慮している。
我々は,視覚言語行動モデル(VLA)の一般化強度と3D対応ポリシーの堅牢性を組み合わせた,新しいアーキテクチャと学習フレームワークであるOG-VLAを紹介する。
論文 参考訳(メタデータ) (2025-06-01T22:15:45Z) - $π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization [81.73746512639283]
広義の一般化を実現するために異種タスクのコトレーニングを利用する$pi_0.5$に基づく新しいモデルについて述べる。
本研究では,エンド・ツー・エンドの学習支援ロボットシステムが,長期的かつ巧妙な操作能力を発揮することを初めて実証する。
論文 参考訳(メタデータ) (2025-04-22T17:31:29Z) - PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model [4.079327215055764]
3Dオブジェクト上で動作可能な領域を識別する作業であるアフォーマンス理解は、ロボットシステムが物理的な世界の中で関わり、操作できるようにする上で重要な役割を担っている。
視覚言語モデル(VLM)は高レベルの推論において優れているが、効果的な人間とロボットの相互作用に必要な微妙な物理的特性の把握には不十分である。
PAVLMは、事前訓練された言語モデルに埋め込まれた広範なマルチモーダル知識を利用して、ポイントクラウドの3Dアベイランス理解を強化する革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-10-15T12:53:42Z) - Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning [21.944363082061333]
視覚強化学習に適した一般化可能なフレームワークであるtextbfManiwhereを提案する。
実験の結果,Maniwhereは既存の最先端手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-22T17:29:02Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。