論文の概要: QUAR-VLA: Vision-Language-Action Model for Quadruped Robots
- arxiv url: http://arxiv.org/abs/2312.14457v1
- Date: Fri, 22 Dec 2023 06:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 16:04:18.101891
- Title: QUAR-VLA: Vision-Language-Action Model for Quadruped Robots
- Title(参考訳): QuaR-VLA:四足歩行ロボットの視覚言語行動モデル
- Authors: Pengxiang Ding, Han Zhao, Zhitao Wang, Zhenyu Wei, Shangke Lyu,
Donglin Wang
- Abstract要約: 中心となるアイデアは、ロボットの全体的な知性を高めることだ。
本稿では,VLAモデルのファミリである Quadruped Robotic Transformer (QUART) を提案する。
提案手法は,動作可能なロボットポリシーを導き,一貫した能力の獲得を可能にする。
- 参考スコア(独自算出の注目度): 30.717399460407407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The important manifestation of robot intelligence is the ability to naturally
interact and autonomously make decisions. Traditional approaches to robot
control often compartmentalize perception, planning, and decision-making,
simplifying system design but limiting the synergy between different
information streams. This compartmentalization poses challenges in achieving
seamless autonomous reasoning, decision-making, and action execution. To
address these limitations, a novel paradigm, named Vision-Language-Action tasks
for QUAdruped Robots (QUAR-VLA), has been introduced in this paper. This
approach tightly integrates visual information and instructions to generate
executable actions, effectively merging perception, planning, and
decision-making. The central idea is to elevate the overall intelligence of the
robot. Within this framework, a notable challenge lies in aligning fine-grained
instructions with visual perception information. This emphasizes the complexity
involved in ensuring that the robot accurately interprets and acts upon
detailed instructions in harmony with its visual observations. Consequently, we
propose QUAdruped Robotic Transformer (QUART), a family of VLA models to
integrate visual information and instructions from diverse modalities as input
and generates executable actions for real-world robots and present QUAdruped
Robot Dataset (QUARD), a large-scale multi-task dataset including navigation,
complex terrain locomotion, and whole-body manipulation tasks for training
QUART models. Our extensive evaluation (4000 evaluation trials) shows that our
approach leads to performant robotic policies and enables QUART to obtain a
range of emergent capabilities.
- Abstract(参考訳): ロボット知性の重要な発現は、自然と対話し、自律的に意思決定する能力である。
従来のロボット制御のアプローチは、知覚、計画、意思決定を分割し、システム設計を単純化するが、異なる情報ストリーム間のシナジーを制限する。
この区画化は、シームレスな自律的推論、意思決定、行動実行を達成する上での課題を提起する。
これらの制約に対処するために、Quadruped Robots (QUAR-VLA) のためのビジョン・ランゲージ・アクションタスクと呼ばれる新しいパラダイムが導入された。
このアプローチでは、視覚情報と指示を密に統合して実行可能なアクションを生成し、知覚、計画、意思決定を効果的に融合する。
中心となるアイデアは、ロボット全体の知性を高めることだ。
この枠組みの中で注目すべき課題は、きめ細かい指示を視覚的知覚情報と整合させることである。
これは、ロボットが視覚観察と調和して詳細な指示を正しく解釈し行動することを保証するのに必要な複雑さを強調している。
そこで本研究では,VLAモデルのファミリーである Quadruped Robotic Transformer (QUART) を提案し,実世界のロボットの入力として様々なモードから視覚情報と指示を統合し,実世界のロボットに対して実行可能なアクションを生成するとともに, quadruped Robot Dataset (QUARD) を提示する。
評価試験(4000回)により,本手法がロボットの能力向上に寄与し,QUIRTが創発的能力の獲得を可能にした。
関連論文リスト
- MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual
Prompting [106.53784213239479]
Moka(Marking Open-vocabulary Keypoint Affordances)は,視覚言語モデルを用いたロボット操作タスクの解法である。
我々のアプローチの核心は、物理的世界におけるVLMのRGB画像とロボットの動きの予測を橋渡しする、手頃さと動きのコンパクトなポイントベース表現である。
我々は,自由形式の言語記述によって規定される様々な操作タスクに対して,Mokaの性能を評価し,分析する。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Large Language Models for Robotics: Opportunities, Challenges, and
Perspectives [46.57277568357048]
大規模言語モデル(LLM)は大幅に拡張され、様々な領域にまたがって統合されている。
ロボットが複雑な環境と対話する具体的タスクでは、テキストのみのLLMは、ロボットの視覚知覚との互換性が欠如しているため、しばしば課題に直面している。
本稿では,マルチモーダル GPT-4V を利用して,自然言語命令とロボットの視覚認識を組み合わせることで,具体的タスク計画を強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T03:22:16Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Using Knowledge Representation and Task Planning for Robot-agnostic
Skills on the Example of Contact-Rich Wiping Tasks [44.99833362998488]
本研究では,知識表現,タスク計画,スキル実装の自動選択を利用した単一のロボットスキルを,異なるコンテキストで実行可能であることを示す。
このスキルベースの制御プラットフォームが、異なるロボットシステム上でのコンタクトリッチなワイピングタスクでこれをどのように実現できるかを実証する。
論文 参考訳(メタデータ) (2023-08-27T21:17:32Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning [108.41464483878683]
本稿では,視覚に基づくロボット操作システムにおいて,新しいタスクを一般化することの課題について検討する。
実演と介入の両方から学ぶことができるインタラクティブで柔軟な模倣学習システムを開発した。
実際のロボットにおけるデータ収集を100以上のタスクにスケールすると、このシステムは平均的な成功率44%で24の目に見えない操作タスクを実行できる。
論文 参考訳(メタデータ) (2022-02-04T07:30:48Z) - Understanding Contexts Inside Robot and Human Manipulation Tasks through
a Vision-Language Model and Ontology System in a Video Stream [4.450615100675747]
本稿では,ロボットと人間の操作の双方に対して,厳密な制約付き知識領域の下で視覚データセットを提案する。
本稿では,視覚的注意とコモンセンス知識に満ちた知識グラフを組み合わせて生成する手法を提案する。
提案手法により,ロボットはリアルタイム映像を視聴することで,人間の意図的な動作を模倣することができる。
論文 参考訳(メタデータ) (2020-03-02T19:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。