Fugu-MT 論文翻訳(概要): CARTIER: Cartographic lAnguage Reasoning Targeted at Instruction Execution for Robots

論文の概要: CARTIER: Cartographic lAnguage Reasoning Targeted at Instruction Execution for Robots

arxiv url: http://arxiv.org/abs/2307.11865v3
Date: Thu, 1 Feb 2024 16:32:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 19:41:06.343536
Title: CARTIER: Cartographic lAnguage Reasoning Targeted at Instruction Execution for Robots
Title（参考訳）: cartier: ロボットの命令実行を目的とした地図言語推論
Authors: Dmitriy Rivkin, Nikhil Kakodkar, Francois Hogan, Bobak H. Baghi, Gregory Dudek
Abstract要約: 本研究は、空間計画とナビゲーションのための自然言語インタフェースの交わりにおける問題に対処する大規模言語モデルの能力について考察する。我々は、ロボット工学で一般的に見られる従来の明示的な手続き的指示よりも、自然な会話に近い複雑な指示に従うことに重点を置いている。我々は3DシミュレータAI2Thorを利用して、大規模な家庭用クエリシナリオを作成し、40のオブジェクトタイプに対して複雑な言語クエリを追加することで拡張する。
参考スコア（独自算出の注目度）: 9.393951367344894
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work explores the capacity of large language models (LLMs) to address problems at the intersection of spatial planning and natural language interfaces for navigation. We focus on following complex instructions that are more akin to natural conversation than traditional explicit procedural directives typically seen in robotics. Unlike most prior work where navigation directives are provided as simple imperative commands (e.g., "go to the fridge"), we examine implicit directives obtained through conversational interactions.We leverage the 3D simulator AI2Thor to create household query scenarios at scale, and augment it by adding complex language queries for 40 object types. We demonstrate that a robot using our method CARTIER (Cartographic lAnguage Reasoning Targeted at Instruction Execution for Robots) can parse descriptive language queries up to 42% more reliably than existing LLM-enabled methods by exploiting the ability of LLMs to interpret the user interaction in the context of the objects in the scenario.
Abstract（参考訳）: 本研究では,大規模言語モデル(LLM)の空間計画とナビゲーションのための自然言語インタフェースの交点における問題に対処する能力について検討する。ロボット工学で一般的に見られる従来の明示的な手続き的指示よりも、自然な会話に近い複雑な指示に従うことに注力する。ナビゲーションディレクティブを単純な命令コマンド(例えば "go to the fridge" など)として提供する従来の作業とは違って、3Dシミュレータである AI2Thor を利用して大規模な家庭用クエリシナリオを作成し、40のオブジェクトタイプに対して複雑な言語クエリを追加することで拡張する。我々は,我々の手法であるCARTIER(Cartographic lAnguage Reasoning Targeted at Instruction Execution for Robots)を用いて,シナリオ内のオブジェクトのコンテキストでユーザインタラクションを解釈するLLMの能力を利用して,既存のLCM対応手法よりも最大42%信頼性の高い記述言語クエリを解析できることを実証した。

関連論文リスト

RoboOmni: Proactive Robot Manipulation in Omni-modal Context [165.09049429566238]
我々は,音声対話や環境音,視覚的手がかりから意図を導出する,クロスモーダルな文脈指示を導入する。目的認識,インタラクション確認,アクション実行を統一する,エンドツーエンドのOmni-Modal LLMに基づくフレームワークであるRoboOmniを提案する。シミュレーションと実世界の設定の実験では、Robo OmniはテキストベースとASRベースのベースラインを越え、成功率、推論速度、意図認識、積極的に支援している。
論文参考訳（メタデータ） (2025-10-27T18:49:03Z)
LiLMaps: Learnable Implicit Language Maps [18.342569823885864]
本稿では、視覚言語機能の統合により、漸進的な暗黙マッピングを強化するアプローチを提案する。具体的には、(i)シーンに新しいオブジェクトが現れたときに使用できる暗黙の言語マップのためのデコーダ最適化手法を提案し、(ii)異なる視聴位置間の一貫性のない視覚言語予測の問題に対処する。
論文参考訳（メタデータ） (2025-01-06T16:04:56Z)
In-Context Learning Enables Robot Action Prediction in LLMs [52.285739178561705]
本稿では,ロボットの動作を直接予測する,オフザシェルフテキストのみの大規模言語モデルを実現するフレームワークであるRoboPromptを紹介する。われわれのアプローチはまず、エピソードから重要な瞬間を捉えている。我々は、初期オブジェクトのポーズだけでなく、エンドエフェクタアクションも抽出し、どちらもテキスト記述に変換する。これにより、LLMはテスト時にロボットの動作を直接予測できる。
論文参考訳（メタデータ） (2024-10-16T17:56:49Z)
Integrating Disambiguation and User Preferences into Large Language Models for Robot Motion Planning [1.9912315834033756]
フレームワークは、時間要素を含む人間のナビゲーションコマンドを解釈し、自然言語命令をロボットの動き計画に変換する。本稿では,自然言語命令のあいまいさを解消し,ユーザの好みを捉える手法を提案する。
論文参考訳（メタデータ） (2024-04-22T19:38:37Z)
Verifiably Following Complex Robot Instructions with Foundation Models [16.564788361518197]
人々は、柔軟に制約を表現し、任意のランドマークを参照し、ロボットに指示する際の検証を望みます。本稿では,ロボットが表現的かつ複雑なオープンエンド命令を確実に追従できるような,動き計画のための言語指導基盤を提案する。 LIMは、インストラクターの意図したロボットのアライメントを明らかにする象徴的な指示表現を構築する。
論文参考訳（メタデータ） (2024-02-18T08:05:54Z)
Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。 MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文参考訳（メタデータ） (2024-01-05T13:54:45Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文参考訳（メタデータ） (2023-05-18T17:59:49Z)
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文参考訳（メタデータ） (2022-09-22T20:29:49Z)
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文参考訳（メタデータ） (2022-07-10T10:41:50Z)
A Persistent Spatial Semantic Representation for High-level Natural Language Instruction Execution [54.385344986265714]
本稿では,言語行動とロボット行動のギャップを埋めるために,永続的な空間意味表現法を提案する。一般的なステップバイステップ命令を完全に回避しながら、ALFREDベンチマークに対する我々のアプローチを評価し、最先端の結果を得る。
論文参考訳（メタデータ） (2021-07-12T17:47:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。