Fugu-MT 論文翻訳(概要): Verifiably Following Complex Robot Instructions with Foundation Models

論文の概要: Verifiably Following Complex Robot Instructions with Foundation Models

arxiv url: http://arxiv.org/abs/2402.11498v3
Date: Sun, 30 Mar 2025 03:37:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:56.518996
Title: Verifiably Following Complex Robot Instructions with Foundation Models
Title（参考訳）: 基礎モデルを用いた複雑なロボット指導の検証
Authors: Benedict Quartey, Eric Rosen, Stefanie Tellex, George Konidaris,
Abstract要約: 動作計画のための言語指導基盤(LIMP)は、ロボットが事前に構築されたセマンティックマップを使わずに、現実の環境で複雑なオープンエンドの指示に従うことができるアプローチである。 LIMPは、インストラクターの意図したモチベーションとロボットのアライメントを明らかにする象徴的な指示表現を構築する。 5つの実環境における150の命令に対してLIMPを大規模に評価し、その汎用性とデプロイの容易さを示す。
参考スコア（独自算出の注目度）: 16.564788361518197
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When instructing robots, users want to flexibly express constraints, refer to arbitrary landmarks, and verify robot behavior, while robots must disambiguate instructions into specifications and ground instruction referents in the real world. To address this problem, we propose Language Instruction grounding for Motion Planning (LIMP), an approach that enables robots to verifiably follow complex, open-ended instructions in real-world environments without prebuilt semantic maps. LIMP constructs a symbolic instruction representation that reveals the robot's alignment with an instructor's intended motives and affords the synthesis of correct-by-construction robot behaviors. We conduct a large-scale evaluation of LIMP on 150 instructions across five real-world environments, demonstrating its versatility and ease of deployment in diverse, unstructured domains. LIMP performs comparably to state-of-the-art baselines on standard open-vocabulary tasks and additionally achieves a 79\% success rate on complex spatiotemporal instructions, significantly outperforming baselines that only reach 38\%. See supplementary materials and demo videos at https://robotlimp.github.io
Abstract（参考訳）: ロボットを指示する場合、ユーザーは柔軟に制約を表現し、任意のランドマークを参照し、ロボットの動作を検証する。この問題を解決するために,ロボットが事前に構築されたセマンティックマップを使わずに,現実の環境において複雑でオープンな指示を確実に追従できるLIMP(Language Instruction Grounding for Motion Planning)を提案する。 LIMPは、インストラクターの意図するモチベーションとロボットのアライメントを明らかにする象徴的な指示表現を構築し、正しい構成ロボットの振る舞いを合成する。実世界の5つの環境における150の命令に対してLIMPを大規模に評価し、その汎用性と多様な非構造ドメインへの展開の容易さを示す。 LIMPは、標準的なオープン語彙タスクで最先端のベースラインと互換性があり、複雑な時空間命令で79\%の成功率を達成し、38\%にしか達しないベースラインを著しく上回る。補足資料とデモビデオはhttps://robotlimp.github.ioで見ることができる。

関連論文リスト

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning? [12.490512012911635]
言語学者は、そのような曖昧さは表現(RE)を参照することからしばしば生じることを示唆している。本稿では,人間の指示におけるREsの不明瞭さがLLMに基づくロボットタスク計画にどのように影響するかを考察する。本稿では,あいまいなRE(REI-Bench)を用いた最初のロボットタスク計画ベンチマークを提案する。
論文参考訳（メタデータ） (2025-05-16T05:27:15Z)
RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.81956345363355]
RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
論文参考訳（メタデータ） (2025-05-03T06:17:18Z)
Time is on my sight: scene graph filtering for dynamic environment perception in an LLM-driven robot [0.8515309662618664]
本稿では,人間とロボットのインタラクションにおける重要な課題に対処するロボット制御アーキテクチャを提案する。アーキテクチャはLarge Language Modelsを使用して、自然言語コマンドを含む多様な情報ソースを統合する。このアーキテクチャは、動的環境における適応性、タスク効率、人間とロボットのコラボレーションを強化する。
論文参考訳（メタデータ） (2024-11-22T15:58:26Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
Body Transformer: Leveraging Robot Embodiment for Policy Learning [51.531793239586165]
ボディートランスフォーマー(ボディートランスフォーマー、Body Transformer、BoT)は、学習プロセスを導く誘導バイアスを提供することで、ロボットの体現性を活用するアーキテクチャである。我々はロボットの体をセンサーとアクチュエータのグラフとして表現し、建築全体を通してプール情報にマスキングされた注意を頼りにしている。結果として得られるアーキテクチャは、バニラ変換器と古典的な多層パーセプトロンを、タスク完了、スケーリング特性、計算効率の点で上回る。
論文参考訳（メタデータ） (2024-08-12T17:31:28Z)
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文参考訳（メタデータ） (2024-02-22T15:12:00Z)
ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2023-12-12T08:30:09Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Incremental Learning of Humanoid Robot Behavior from Natural Interaction and Large Language Models [23.945922720555146]
本研究では,自然相互作用から複雑な行動の漸進的な学習を実現するシステムを提案する。本システムは,ヒューマノイドロボットARMAR-6のロボット認知アーキテクチャに組み込まれている。
論文参考訳（メタデータ） (2023-09-08T13:29:05Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
CARTIER: Cartographic lAnguage Reasoning Targeted at Instruction Execution for Robots [9.393951367344894]
本研究は、空間計画とナビゲーションのための自然言語インタフェースの交わりにおける問題に対処する大規模言語モデルの能力について考察する。我々は、ロボット工学で一般的に見られる従来の明示的な手続き的指示よりも、自然な会話に近い複雑な指示に従うことに重点を置いている。我々は3DシミュレータAI2Thorを利用して、大規模な家庭用クエリシナリオを作成し、40のオブジェクトタイプに対して複雑な言語クエリを追加することで拡張する。
論文参考訳（メタデータ） (2023-07-21T19:09:37Z)
Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。 LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文参考訳（メタデータ） (2023-06-14T17:27:10Z)
Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文参考訳（メタデータ） (2023-05-18T17:59:49Z)
SEAL: Semantic Frame Execution And Localization for Perceiving Afforded Robot Actions [5.522839151632667]
本稿では,ロボット操作行動のセマンティックフレーム表現を拡張し,セマンティックフレーム実行と局所化の問題をグラフィカルモデルとして導入する。 SEAL問題に対して、ロボットに与えられた行動の場所として、有限のセマンティックフレームに対する信念を維持するための非パラメトリックセマンティックフレームマッピング(SeFM)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2023-03-24T15:25:41Z)
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文参考訳（メタデータ） (2022-09-22T20:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。