論文の概要: Sample-Efficient Robot Skill Learning for Construction Tasks: Benchmarking Hierarchical Reinforcement Learning and Vision-Language-Action VLA Model
- arxiv url: http://arxiv.org/abs/2512.14031v1
- Date: Tue, 16 Dec 2025 02:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.558051
- Title: Sample-Efficient Robot Skill Learning for Construction Tasks: Benchmarking Hierarchical Reinforcement Learning and Vision-Language-Action VLA Model
- Title(参考訳): 建設作業のためのサンプル効率のよいロボットスキル学習:階層的強化学習と視覚・言語・アクションVLAモデルのベンチマーク
- Authors: Zhaofeng Hu, Hongrui Yu, Vaidhyanathan Chandramouli, Ci-Jyun Liang,
- Abstract要約: 本研究は,建設ロボットに新しいスキルを教えるための2つの主要なアプローチを評価する。
目標は、タスクパフォーマンスと、実際のジョブに各アプローチをデプロイするために必要な実践的労力の両方を理解することです。
- 参考スコア(独自算出の注目度): 9.025728945376468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study evaluates two leading approaches for teaching construction robots new skills to understand their applicability for construction automation: a Vision-Language-Action (VLA) model and Reinforcement Learning (RL) methods. The goal is to understand both task performance and the practical effort needed to deploy each approach on real jobs. The authors developed two teleoperation interfaces to control the robots and collect the demonstrations needed, both of which proved effective for training robots for long-horizon and dexterous tasks. In addition, the authors conduct a three-stage evaluation. First, the authors compare a Multi-Layer Perceptron (MLP) policy with a Deep Q-network (DQN) imitation model to identify the stronger RL baseline, focusing on model performance, generalization, and a pick-up experiment. Second, three different VLA models are trained in two different scenarios and compared with each other. Third, the authors benchmark the selected RL baseline against the VLA model using computational and sample-efficiency measures and then a robot experiment on a multi-stage panel installation task that includes transport and installation. The VLA model demonstrates strong generalization and few-shot capability, achieving 60% and 100% success in the pickup phase. In comparison, DQN can be made robust but needs additional noise during tuning, which increases the workload. Overall, the findings indicate that VLA offers practical advantages for changing tasks by reducing programming effort and enabling useful performance with minimal data, while DQN provides a viable baseline when sufficient tuning effort is acceptable.
- Abstract(参考訳): 本研究では,建設ロボットに対して,視覚・言語・行動モデル (VLA) と強化学習法 (RL) という,建設自動化への適用性を理解するための新たな技術を教えるための2つの主要なアプローチを評価する。
目標は、タスクパフォーマンスと、実際のジョブに各アプローチをデプロイするために必要な実践的労力の両方を理解することです。
著者らは、ロボットを制御し、必要なデモを収集する2つの遠隔操作インタフェースを開発した。
さらに,著者らは3段階評価を行った。
まず,Multi-Layer Perceptron(MLP)ポリシーとDeep Q-network(DQN)模倣モデルを比較し,モデル性能,一般化,ピックアップ実験に着目した。
第二に、3つの異なるVLAモデルは、2つの異なるシナリオで訓練され、互いに比較されます。
第3に,VLAモデルに対して選択されたRLベースラインを,計算および試料効率測定を用いてベンチマークし,移動と設置を含む多段パネル設置タスクにおけるロボット実験を行った。
VLAモデルは強力な一般化と少ないショット能力を示し、ピックアップフェーズで60%と100%の成功を達成している。
対照的に、DQNは堅牢にすることができるが、チューニング中に追加のノイズを必要とするため、作業負荷が増加する。
全体として、VLAは、プログラミングの労力を減らし、最小限のデータで有用なパフォーマンスを実現することで、タスクを変更するための実用的な利点を提供する。
関連論文リスト
- Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning [56.129822832095726]
AdaMoEはMixture-of-Experts (MoE)アーキテクチャであり、密度の高いVLAモデルから事前訓練された重量を継承する。
実世界の実験で21.5%の大幅な改善が、ロボット操作タスクの実用的効果を実証している。
論文 参考訳(メタデータ) (2025-10-16T04:52:57Z) - Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends [11.678954304546988]
視覚言語アクション(VLA)モデル拡張視覚言語モデル(VLM)
本稿では,人間の運動学習のレンズによるVLAモデルの訓練戦略についてレビューする。
論文 参考訳(メタデータ) (2025-06-26T03:06:57Z) - VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。
自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。
VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文 参考訳(メタデータ) (2025-05-24T14:42:51Z) - MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models [34.138699712315]
本稿では、四足歩行ロボットのためのロボット専門家(MoRE)の混合であるビジョンアクション(VLA)モデルを提案する。
MoREは、複数の低ランク適応モジュールを、密集したマルチモーダルな大規模言語モデルの中で異なる専門家として統合する。
実験によると、MoREは6つの異なるスキルで全てのベースラインを上回り、アウト・オブ・ディストリビューションシナリオにおいて優れた一般化能力を示す。
論文 参考訳(メタデータ) (2025-03-11T03:13:45Z) - DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。
現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。
本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文 参考訳(メタデータ) (2025-02-09T11:25:56Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。