論文の概要: RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model
- arxiv url: http://arxiv.org/abs/2406.10157v4
- Date: Thu, 18 Jul 2024 15:40:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 13:52:17.012158
- Title: RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model
- Title(参考訳): RoboGolf: 反射型多モードビジョンランゲージモデルによる実世界のミニゴルフのマスタリング
- Authors: Hantao Zhou, Tianying Ji, Lukas Sommerhalder, Michael Goerner, Norman Hendrich, Jianwei Zhang, Fuchun Sun, Huazhe Xu,
- Abstract要約: ミニゴルフ(Minigolf)は、エンボディインテリジェンスを調べるための模範的な現実世界ゲームである。
本稿では、デュアルカメラ認識と閉ループ動作改善を組み合わせたVLMベースのフレームワークであるRoboGolfを紹介する。
オフラインの推論設定でフレームワークの機能を解析し、記録されたトラジェクトリの広範なセットに依存する。
- 参考スコア(独自算出の注目度): 30.122401328873206
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Minigolf is an exemplary real-world game for examining embodied intelligence, requiring challenging spatial and kinodynamic understanding to putt the ball. Additionally, reflective reasoning is required if the feasibility of a challenge is not ensured. We introduce RoboGolf, a VLM-based framework that combines dual-camera perception with closed-loop action refinement, augmented by a reflective equilibrium loop. The core of both loops is powered by finetuned VLMs. We analyze the capabilities of the framework in an offline inference setting, relying on an extensive set of recorded trajectories. Exemplary demonstrations of the analyzed problem domain are available at https://jity16.github.io/RoboGolf/
- Abstract(参考訳): ミニゴルフ(Minigolf)は、エンボディインテリジェンスを調べるための模範的な現実世界のゲームであり、ボールを置くには空間的およびキノダイナミックな理解が必要である。
さらに、課題の実現可能性が保証されない場合には、リフレクティブ推論が必要である。
本稿では,双対カメラ認識と閉ループ動作改善を組み合わせたVLMベースのフレームワークであるRoboGolfを紹介する。
両方のループのコアは微調整されたVLMによって駆動される。
オフラインの推論設定でフレームワークの機能を解析し、記録されたトラジェクトリの広範なセットに依存する。
分析された問題領域の例示はhttps://jity16.github.io/RoboGolf/で公開されている。
関連論文リスト
- Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? [66.6886931183372]
我々は,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。
その単純さにもかかわらず、Atlasは3D検出とエゴ計画の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-28T16:57:44Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - Toward a Plug-and-Play Vision-Based Grasping Module for Robotics [0.0]
本稿では,複数のマニピュレータ間で容易に移動可能な視覚ベースの把握フレームワークを提案する。
このフレームワークは、オープンループ把持軌跡の多様なレパートリーを生成し、把握の多様性を維持しつつ、適応性を向上させる。
論文 参考訳(メタデータ) (2023-10-06T16:16:00Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Ball Trajectory Inference from Multi-Agent Sports Contexts Using Set
Transformer and Hierarchical Bi-LSTM [18.884300680050316]
本稿では,ボールトラッキングに代わる費用対効果として,選手軌道からの球軌道推定フレームワークを提案する。
実験の結果,本モデルでは,自然かつ正確な軌道と,許容可能な球の保持を同時に行うことができることがわかった。
提案するフレームワークの実用的応用には,トラジェクティブ・インプットの欠如,半自動パスアノテーション,マッチブロードキャストのための自動ズームイン,保持可能な性能指標の算出などがある。
論文 参考訳(メタデータ) (2023-06-14T02:19:59Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Hierarchical Reinforcement Learning for Precise Soccer Shooting Skills
using a Quadrupedal Robot [76.04391023228081]
本研究では,四足歩行ロボットが実世界において,強化学習を用いて精度の高い射撃技術を実現できるという課題に対処する。
本研究では, 深層強化学習を活用して頑健な動作制御政策を訓練する階層的枠組みを提案する。
提案するフレームワークをA1四足歩行ロボットに展開し、実世界のランダムなターゲットに向けて正確にボールを発射できるようにする。
論文 参考訳(メタデータ) (2022-08-01T22:34:51Z) - Golfer: Trajectory Prediction with Masked Goal Conditioning MnM Network [16.393675040056397]
AV軌道予測のための新しいマスク付き目標条件付きトレーニング手順を備えたトランスフォーマー型アーキテクチャモジュールMnMネットワークを提案する。
ゴルファーと名付けられたこのモデルは、2022年のオープンモーション予測チャレンジで2位を獲得し、minADEで1位にランクインした。
論文 参考訳(メタデータ) (2022-07-02T04:57:44Z) - Vision-Guided Quadrupedal Locomotion in the Wild with Multi-Modal Delay
Randomization [9.014518402531875]
我々は、予め定義されたコントローラや参照動作を使わずに、物理シミュレータにおけるエンドツーエンド制御のためのRLポリシーを訓練する。
ロボットが高速でスムーズに動き、障害物を回避し、ベースラインよりも大幅に改善できることを実証する。
論文 参考訳(メタデータ) (2021-09-29T16:48:05Z) - Learning to Play Cup-and-Ball with Noisy Camera Observations [2.6931502677545947]
球技に対する学習モデルに基づく制御戦略を提案する。
Universal Robots UR5eのマニピュレータアームは、ケンダマのカップの1つでボールをキャッチすることを学ぶ。
論文 参考訳(メタデータ) (2020-07-19T02:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。