論文の概要: Integrating Disambiguation and User Preferences into Large Language Models for Robot Motion Planning
- arxiv url: http://arxiv.org/abs/2404.14547v1
- Date: Mon, 22 Apr 2024 19:38:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 17:57:44.632715
- Title: Integrating Disambiguation and User Preferences into Large Language Models for Robot Motion Planning
- Title(参考訳): ロボット運動計画のための大言語モデルへの曖昧さとユーザ嗜好の統合
- Authors: Mohammed Abugurain, Shinkyu Park,
- Abstract要約: フレームワークは、時間要素を含む人間のナビゲーションコマンドを解釈し、自然言語命令をロボットの動き計画に変換する。
本稿では,自然言語命令のあいまいさを解消し,ユーザの好みを捉える手法を提案する。
- 参考スコア(独自算出の注目度): 1.9912315834033756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a framework that can interpret humans' navigation commands containing temporal elements and directly translate their natural language instructions into robot motion planning. Central to our framework is utilizing Large Language Models (LLMs). To enhance the reliability of LLMs in the framework and improve user experience, we propose methods to resolve the ambiguity in natural language instructions and capture user preferences. The process begins with an ambiguity classifier, identifying potential uncertainties in the instructions. Ambiguous statements trigger a GPT-4-based mechanism that generates clarifying questions, incorporating user responses for disambiguation. Also, the framework assesses and records user preferences for non-ambiguous instructions, enhancing future interactions. The last part of this process is the translation of disambiguated instructions into a robot motion plan using Linear Temporal Logic. This paper details the development of this framework and the evaluation of its performance in various test scenarios.
- Abstract(参考訳): 本稿では,時間的要素を含む人間のナビゲーションコマンドを解釈し,その自然言語命令を直接ロボット動作計画に変換するフレームワークを提案する。
私たちのフレームワークの中心は、Large Language Models (LLM) の利用です。
フレームワークにおけるLLMの信頼性を高め,ユーザエクスペリエンスを向上させるために,自然言語命令のあいまいさを解消し,ユーザの好みを捉える手法を提案する。
プロセスは曖昧さの分類器から始まり、命令の潜在的な不確実性を特定する。
曖昧なステートメントはGPT-4ベースのメカニズムを起動し、明確な質問を生成する。
また、このフレームワークは、非曖昧な命令に対するユーザの好みを評価し、記録し、将来のインタラクションを強化する。
このプロセスの最後の部分は、線形時間論理を用いて不明瞭な指示をロボットの動作計画に翻訳することである。
本稿では,本フレームワークの開発と各種テストシナリオにおける性能評価について述べる。
関連論文リスト
- In-Context Learning Enables Robot Action Prediction in LLMs [52.285739178561705]
本稿では,ロボットの動作を直接予測する,オフザシェルフテキストのみの大規模言語モデルを実現するフレームワークであるRoboPromptを紹介する。
われわれのアプローチはまず、エピソードから重要な瞬間を捉えている。
我々は、初期オブジェクトのポーズだけでなく、エンドエフェクタアクションも抽出し、どちらもテキスト記述に変換する。
これにより、LLMはテスト時にロボットの動作を直接予測できる。
論文 参考訳(メタデータ) (2024-10-16T17:56:49Z) - Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation [8.931633531104021]
SAS(Spatially-Aware Speaker)は、環境の構造的知識と意味的知識の両方を用いてよりリッチな命令を生成する命令生成装置である。
提案手法は,既存の命令生成モデルより優れ,標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-09-09T13:12:11Z) - Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。
MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。
我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-01-05T13:54:45Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Interpreting User Requests in the Context of Natural Language Standing
Instructions [89.12540932734476]
我々は17のドメインにまたがる2.4K以上の対話からなる言語とプログラムのデータセットであるNLSIを開発した。
NLSIの鍵となる課題は、ある対話に適用可能なスタンディング命令のサブセットを特定することである。
論文 参考訳(メタデータ) (2023-11-16T11:19:26Z) - Dialogue-based generation of self-driving simulation scenarios using
Large Language Models [14.86435467709869]
シミュレーションは自動運転車のコントローラーを開発し評価するための貴重なツールである。
現在のシミュレーションフレームワークは、高度に専門的なドメイン固有言語によって駆動される。
簡潔な英語の発話と、ユーザの意図をキャプチャする実行可能なコードの間には、しばしばギャップがある。
論文 参考訳(メタデータ) (2023-10-26T13:07:01Z) - CARTIER: Cartographic lAnguage Reasoning Targeted at Instruction
Execution for Robots [9.393951367344894]
本研究は、空間計画とナビゲーションのための自然言語インタフェースの交わりにおける問題に対処する大規模言語モデルの能力について考察する。
我々は、ロボット工学で一般的に見られる従来の明示的な手続き的指示よりも、自然な会話に近い複雑な指示に従うことに重点を置いている。
我々は3DシミュレータAI2Thorを利用して、大規模な家庭用クエリシナリオを作成し、40のオブジェクトタイプに対して複雑な言語クエリを追加することで拡張する。
論文 参考訳(メタデータ) (2023-07-21T19:09:37Z) - Query Understanding in the Age of Large Language Models [6.630482733703617]
大規模言語モデル(LLM)を用いた対話型クエリ書き換えのための汎用フレームワークについて述べる。
我々のフレームワークの重要な側面は、自然言語で検索エンジンによって機械の意図を完全に指定できるリライタの能力である。
この対話型クエリ理解フレームワークに対するオープンな質問とともに、最初の実験を背景としたコンセプトを詳述する。
論文 参考訳(メタデータ) (2023-06-28T08:24:14Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - PADL: Language-Directed Physics-Based Character Control [66.517142635815]
本稿では,文字が行うべきハイレベルなタスクと低レベルなスキルを指定するために,ユーザが自然言語コマンドを発行できるようにするPADLを提案する。
我々は,シミュレーションされたヒューマノイドキャラクタを効果的に誘導し,多種多様な複雑な運動能力を実現するために,本フレームワークを適用した。
論文 参考訳(メタデータ) (2023-01-31T18:59:22Z) - A Persistent Spatial Semantic Representation for High-level Natural
Language Instruction Execution [54.385344986265714]
本稿では,言語行動とロボット行動のギャップを埋めるために,永続的な空間意味表現法を提案する。
一般的なステップバイステップ命令を完全に回避しながら、ALFREDベンチマークに対する我々のアプローチを評価し、最先端の結果を得る。
論文 参考訳(メタデータ) (2021-07-12T17:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。