論文の概要: LLMs for Robotic Object Disambiguation
- arxiv url: http://arxiv.org/abs/2401.03388v1
- Date: Sun, 7 Jan 2024 04:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 18:59:56.730459
- Title: LLMs for Robotic Object Disambiguation
- Title(参考訳): ロボット物体の曖昧化のためのLLM
- Authors: Connie Jiang, Yiqing Xu, David Hsu
- Abstract要約: 本研究は,LLMが複雑な意思決定課題の解決に適していることを明らかにする。
我々の研究の重要な焦点は、LLMのオブジェクトの曖昧化能力である。
我々は,LLMのあいまいなクエリを提示する能力を改善するために,数発のプロンプトエンジニアリングシステムを開発した。
- 参考スコア(独自算出の注目度): 21.101902684740796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advantages of pre-trained large language models (LLMs) are apparent in a
variety of language processing tasks. But can a language model's knowledge be
further harnessed to effectively disambiguate objects and navigate
decision-making challenges within the realm of robotics? Our study reveals the
LLM's aptitude for solving complex decision making challenges that are often
previously modeled by Partially Observable Markov Decision Processes (POMDPs).
A pivotal focus of our research is the object disambiguation capability of
LLMs. We detail the integration of an LLM into a tabletop environment
disambiguation task, a decision making problem where the robot's task is to
discern and retrieve a user's desired object from an arbitrarily large and
complex cluster of objects. Despite multiple query attempts with zero-shot
prompt engineering (details can be found in the Appendix), the LLM struggled to
inquire about features not explicitly provided in the scene description. In
response, we have developed a few-shot prompt engineering system to improve the
LLM's ability to pose disambiguating queries. The result is a model capable of
both using given features when they are available and inferring new relevant
features when necessary, to successfully generate and navigate down a precise
decision tree to the correct object--even when faced with identical options.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)の利点は、様々な言語処理タスクにおいて明らかである。
しかし、言語モデルの知識は、オブジェクトを効果的に曖昧にし、ロボット工学の領域内で意思決定の課題をナビゲートするためにさらに活用できるだろうか?
本研究は,部分可観測マルコフ決定プロセス(pomdps)によってモデル化されることが多い複雑な意思決定課題を解決するためのllmの適性を明らかにする。
我々の研究の重要な焦点は、LLMのオブジェクト曖昧化能力である。
本稿では,LLMのテーブルトップ環境曖昧化タスクへの統合について詳述する。ロボットのタスクが任意の大きさの複雑なオブジェクトのクラスタから,ユーザの希望するオブジェクトを識別し,検索する決定問題である。
ゼロショットプロンプトエンジニアリングによる複数のクエリの試み(詳細はAppendixにある)にもかかわらず、LLMはシーン記述で明示的に提供されていない機能について問い合わせることに苦労した。
そこで我々は,不明瞭なクエリを提示するLLMの能力を改善するために,数発のプロンプトエンジニアリングシステムを開発した。
その結果、利用可能なときに与えられた特徴を使い、必要に応じて新しい特徴を推測し、同じ選択肢に直面した場合でも、正確な決定ツリーを正しいオブジェクトに生成し、ナビゲートすることが可能になる。
関連論文リスト
- Unmemorization in Large Language Models via Self-Distillation and
Deliberate Imagination [58.36408867180233]
大規模言語モデル(LLM)は、プライバシー侵害や機密データの不要な露出といった重要な問題に苦慮している。
我々は、LLMアンラーニングの文脈において、意図的な想像力という新しいアプローチを導入する。
本研究は,異なるモデルとサイズにまたがるこのアプローチの有用性を示し,パラメータ効率の良い微調整を行った。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Know Your Needs Better: Towards Structured Understanding of Marketer
Demands with Analogical Reasoning Augmented LLMs [31.626409516124877]
我々は,非専門家のマーケターが,自然言語形式の要求のみを前提としたターゲットユーザを選択できる,ユーザターゲティングの新しい方法を探究する。
この問題の鍵は、自然言語を実用的な論理言語に変換する方法である。
本稿では,2つのモジュールからなるALALLMを提案する。
論文 参考訳(メタデータ) (2024-01-09T02:25:23Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - LLM Guided Inductive Inference for Solving Compositional Problems [1.6727879968475368]
大規模言語モデル (LLM) は質問応答タスクにおいて顕著な性能を示した。
既存のメソッドは、順次呼び出されたモジュールを使って推論タスクを分解する。
本稿では,オープンワールドで深い推論処理を行うRecursion based LLM (REBEL)を提案する。
論文 参考訳(メタデータ) (2023-09-20T23:44:16Z) - Selective Perception: Optimizing State Descriptions with Reinforcement
Learning for Language Model Actors [40.18762220245365]
大規模言語モデル(LLM)は、ロボット工学やゲームといった分野における逐次的な意思決定タスクのためにアクターとして応用されている。
これまでの研究は、LLMアクターが言語を介してどのような環境状態情報を提供するかを探ることはほとんどない。
簡潔な状態記述を自動的に選択するBLINDER(Bref Language Inputs for Decision-making Responses)を提案する。
論文 参考訳(メタデータ) (2023-07-21T22:02:50Z) - Enabling Intelligent Interactions between an Agent and an LLM: A
Reinforcement Learning Approach [33.24651276102073]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。