Fugu-MT 論文翻訳(概要): RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model

論文の概要: RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model

arxiv url: http://arxiv.org/abs/2406.10157v3
Date: Mon, 15 Jul 2024 15:51:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 00:16:39.331286
Title: RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model
Title（参考訳）: RoboGolf: 反射型多モードビジョンランゲージモデルによる実世界のミニゴルフのマスタリング
Authors: Hantao Zhou, Tianying Ji, Lukas Sommerhalder, Michael Goerner, Norman Hendrich, Jianwei Zhang, Fuchun Sun, Huazhe Xu,
Abstract要約: ネストされたVLMを用いた閉ループ制御と反射平衡ループによりデュアルカメラの視覚入力を知覚するVLMベースのフレームワークであるRoboGolfを紹介する。 RoboGolfのミニゴルフコートに対する効果を実験で実証した。
参考スコア（独自算出の注目度）: 30.122401328873206
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Minigolf, a game with countless court layouts, and complex ball motion, constitutes a compelling real-world testbed for the study of embodied intelligence. As it not only challenges spatial and kinodynamic reasoning but also requires reflective and corrective capacities to address erroneously designed courses. We introduce RoboGolf, a VLM-based framework that perceives dual-camera visual inputs with nested VLM-empowered closed-loop control and reflective equilibrium loop. Extensive experiments demonstrate the effectiveness of RoboGolf on challenging minigolf courts including those that are impossible to finish.
Abstract（参考訳）: 無限のコートレイアウトと複雑なボールモーションを備えたゲームMinigolfは、エンボディドインテリジェンスの研究のための魅力的な現実世界のテストベッドを構成する。空間的およびキノダイナミックな推論に挑戦するだけでなく、誤って設計されたコースに対処するためには反射的および補正能力も必要である。ネストされたVLMを用いた閉ループ制御と反射平衡ループによりデュアルカメラの視覚入力を知覚するVLMベースのフレームワークであるRoboGolfを紹介する。大規模な実験は、RoboGolfのミニゴルフコートに対する効果を実証している。

関連論文リスト

Code2Worlds: Empowering Coding LLMs for 4D World Generation [14.349376975089607]
我々は、4D生成を言語間コード生成として定式化するフレームワークであるCode2Worldsを紹介した。本稿では,階層的な環境オーケストレーションから拡張オブジェクトを生成する2重ストリームアーキテクチャを提案する。我々は,ポストプロシースエージェントが動的にスクリプトする物理対応閉ループ機構と,反復的に洗練されたシミュレーションコードに対して自己回帰を行うVLM-Motion Criticとを結合して構築する。
論文参考訳（メタデータ） (2026-02-12T09:34:28Z)
Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning [105.35082963701541]
VIGA(Vision-as-Inverse-Graphic Agent)は、クローズドループの書き込み-ラン-レンダー-補完-修正手順によってシーンを再構築または編集する。長距離推論をサポートするために、VIGAは(i)ジェネレータと検証ロールを交換するスキルライブラリと(ii)進化するコンテキストメモリを組み合わせた。
論文参考訳（メタデータ） (2026-01-16T09:11:55Z)
MindJourney: Test-Time Scaling with World Models for Spatial Reasoning [82.46482433335535]
3次元空間における空間的推論は、人間の認知の中心であり、ナビゲーションや操作などの具体的タスクには不可欠である。私たちはMindJourneyを提案します。これはテスト時のスケーリングフレームワークで、この不足した機能を備えたビジョン言語モデルを提供します。我々は,代表的空間推論ベンチマークSATにおいて,MindJourneyが平均8%以上の性能向上を達成したことを示す。
論文参考訳（メタデータ） (2025-07-16T17:59:36Z)
Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning [89.93384726755106]
視覚言語強化学習(RL)は主に狭い領域に焦点を当てている。ビデオゲームは本質的に、検証が容易なリッチなビジュアル要素とメカニクスを提供します。ビデオゲームにおけるマルチモーダルかつ検証可能な報酬を完全に活用するために,Game-RLを提案する。
論文参考訳（メタデータ） (2025-05-20T03:47:44Z)
Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか? OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。 GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文参考訳（メタデータ） (2025-05-17T08:48:40Z)
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-23T20:42:15Z)
Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文参考訳（メタデータ） (2024-12-18T08:32:53Z)
Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? [66.6886931183372]
我々は,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。その単純さにもかかわらず、Atlasは3D検出とエゴ計画の両方で優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-05-28T16:57:44Z)
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。 PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文参考訳（メタデータ） (2024-02-12T18:33:47Z)
Toward a Plug-and-Play Vision-Based Grasping Module for Robotics [0.0]
本稿では,複数のマニピュレータ間で容易に移動可能な視覚ベースの把握フレームワークを提案する。このフレームワークは、オープンループ把持軌跡の多様なレパートリーを生成し、把握の多様性を維持しつつ、適応性を向上させる。
論文参考訳（メタデータ） (2023-10-06T16:16:00Z)
Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文参考訳（メタデータ） (2023-08-30T17:59:05Z)
Ball Trajectory Inference from Multi-Agent Sports Contexts Using Set Transformer and Hierarchical Bi-LSTM [18.884300680050316]
本稿では,ボールトラッキングに代わる費用対効果として,選手軌道からの球軌道推定フレームワークを提案する。実験の結果,本モデルでは,自然かつ正確な軌道と,許容可能な球の保持を同時に行うことができることがわかった。提案するフレームワークの実用的応用には,トラジェクティブ・インプットの欠如,半自動パスアノテーション,マッチブロードキャストのための自動ズームイン,保持可能な性能指標の算出などがある。
論文参考訳（メタデータ） (2023-06-14T02:19:59Z)
One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文参考訳（メタデータ） (2022-10-21T17:33:14Z)
Hierarchical Reinforcement Learning for Precise Soccer Shooting Skills using a Quadrupedal Robot [76.04391023228081]
本研究では,四足歩行ロボットが実世界において,強化学習を用いて精度の高い射撃技術を実現できるという課題に対処する。本研究では, 深層強化学習を活用して頑健な動作制御政策を訓練する階層的枠組みを提案する。提案するフレームワークをA1四足歩行ロボットに展開し、実世界のランダムなターゲットに向けて正確にボールを発射できるようにする。
論文参考訳（メタデータ） (2022-08-01T22:34:51Z)
Golfer: Trajectory Prediction with Masked Goal Conditioning MnM Network [16.393675040056397]
AV軌道予測のための新しいマスク付き目標条件付きトレーニング手順を備えたトランスフォーマー型アーキテクチャモジュールMnMネットワークを提案する。ゴルファーと名付けられたこのモデルは、2022年のオープンモーション予測チャレンジで2位を獲得し、minADEで1位にランクインした。
論文参考訳（メタデータ） (2022-07-02T04:57:44Z)
Vision-Guided Quadrupedal Locomotion in the Wild with Multi-Modal Delay Randomization [9.014518402531875]
我々は、予め定義されたコントローラや参照動作を使わずに、物理シミュレータにおけるエンドツーエンド制御のためのRLポリシーを訓練する。ロボットが高速でスムーズに動き、障害物を回避し、ベースラインよりも大幅に改善できることを実証する。
論文参考訳（メタデータ） (2021-09-29T16:48:05Z)
Learning to Play Cup-and-Ball with Noisy Camera Observations [2.6931502677545947]
球技に対する学習モデルに基づく制御戦略を提案する。 Universal Robots UR5eのマニピュレータアームは、ケンダマのカップの1つでボールをキャッチすることを学ぶ。
論文参考訳（メタデータ） (2020-07-19T02:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。