論文の概要: Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2407.02666v1
- Date: Tue, 2 Jul 2024 21:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 18:14:18.365558
- Title: Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた脚ロボット適応のためのコモンセンス推論
- Authors: Annie S. Chen, Alec M. Lessing, Andy Tang, Govind Chada, Laura Smith, Sergey Levine, Chelsea Finn,
- Abstract要約: 脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
- 参考スコア(独自算出の注目度): 81.55156507635286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legged robots are physically capable of navigating a diverse variety of environments and overcoming a wide range of obstructions. For example, in a search and rescue mission, a legged robot could climb over debris, crawl through gaps, and navigate out of dead ends. However, the robot's controller needs to respond intelligently to such varied obstacles, and this requires handling unexpected and unusual scenarios successfully. This presents an open challenge to current learning methods, which often struggle with generalization to the long tail of unexpected situations without heavy human supervision. To address this issue, we investigate how to leverage the broad knowledge about the structure of the world and commonsense reasoning capabilities of vision-language models (VLMs) to aid legged robots in handling difficult, ambiguous situations. We propose a system, VLM-Predictive Control (VLM-PC), combining two key components that we find to be crucial for eliciting on-the-fly, adaptive behavior selection with VLMs: (1) in-context adaptation over previous robot interactions and (2) planning multiple skills into the future and replanning. We evaluate VLM-PC on several challenging real-world obstacle courses, involving dead ends and climbing and crawling, on a Go1 quadruped robot. Our experiments show that by reasoning over the history of interactions and future plans, VLMs enable the robot to autonomously perceive, navigate, and act in a wide range of complex scenarios that would otherwise require environment-specific engineering or human guidance.
- Abstract(参考訳): 脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
例えば、捜索救助ミッションでは、脚のあるロボットが破片を乗り越えたり、隙間をクロールしたり、死の端から移動したりできる。
しかし、ロボットのコントローラーはこのような様々な障害に対してインテリジェントに応答する必要があるため、予期せぬシナリオと異常なシナリオをうまく処理する必要がある。
これは現在の学習手法に対するオープンな挑戦であり、人間を重く監督することなく、予期せぬ状況の長い尾に一般化に苦慮することが多い。
そこで本研究では、視覚言語モデル(VLM)の世界の構造と常識推論能力に関する幅広い知識を活用して、難易度・不明瞭度に対処するロボットを支援する方法について検討する。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。本システムでは,VLMによる適応行動選択の抽出に重要な2つの重要な要素を組み合わす。
我々は,Go1四足歩行ロボット上で,デッドエンドやクライミング,クロールを含む,現実の難易度の高い障害物コース上でのVLM-PCの評価を行った。
我々の実験は、対話の歴史と将来の計画について推論することで、VLMはロボットが自律的に知覚し、ナビゲートし、より複雑なシナリオで行動することを可能にする。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Multi-Task Interactive Robot Fleet Learning with Visual World Models [25.001148860168477]
Sirius-Fleetはマルチタスク対話型ロボットフリートラーニングフレームワークである。
デプロイ中のロボットのパフォーマンスを監視し、必要な時にロボットの動作を修正するよう人間に要求する。
ロボットの自律性が向上するにつれて、異常予測器は予測基準に自動的に適応する。
論文 参考訳(メタデータ) (2024-10-30T04:49:39Z) - Grounding Robot Policies with Visuomotor Language Guidance [15.774237279917594]
ロボットポリシーを現在の状況に基盤付けるためのエージェントベースのフレームワークを提案する。
提案するフレームワークは、特定の役割のために設計された会話エージェントのセットで構成されている。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - QUAR-VLA: Vision-Language-Action Model for Quadruped Robots [37.952398683031895]
中心となるアイデアは、ロボットの全体的な知性を高めることだ。
本稿では,VLAモデルのファミリである Quadruped Robotic Transformer (QUART) を提案する。
提案手法は,動作可能なロボットポリシーを導き,一貫した能力の獲得を可能にする。
論文 参考訳(メタデータ) (2023-12-22T06:15:03Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Dual-Arm Adversarial Robot Learning [0.6091702876917281]
ロボット学習のためのプラットフォームとしてデュアルアーム設定を提案する。
このセットアップの潜在的なメリットと、追求できる課題と研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-10-15T12:51:57Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。