論文の概要: Open-Ended Instructable Embodied Agents with Memory-Augmented Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.15127v1
- Date: Mon, 23 Oct 2023 17:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:15:42.358296
- Title: Open-Ended Instructable Embodied Agents with Memory-Augmented Large
Language Models
- Title(参考訳): メモリ拡張大言語モデルを用いたオープンエンディング型インストラクタブル・エボダイドエージェント
- Authors: Gabriel Sarch, Yue Wu, Michael J. Tarr, Katerina Fragkiadaki
- Abstract要約: 本稿では,言語プログラムペアの外部メモリを備えたエンボディエージェントであるHELPERを紹介する。
関連する記憶は、現在の対話、命令、修正、またはVLM記述に基づいて検索される。
メモリは展開中に拡張され、ユーザの言語とアクションプランのペアを含む。
- 参考スコア(独自算出の注目度): 19.594361652336996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained and frozen LLMs can effectively map simple scene re-arrangement
instructions to programs over a robot's visuomotor functions through
appropriate few-shot example prompting. To parse open-domain natural language
and adapt to a user's idiosyncratic procedures, not known during prompt
engineering time, fixed prompts fall short. In this paper, we introduce HELPER,
an embodied agent equipped with an external memory of language-program pairs
that parses free-form human-robot dialogue into action programs through
retrieval-augmented LLM prompting: relevant memories are retrieved based on the
current dialogue, instruction, correction or VLM description, and used as
in-context prompt examples for LLM querying. The memory is expanded during
deployment to include pairs of user's language and action plans, to assist
future inferences and personalize them to the user's language and routines.
HELPER sets a new state-of-the-art in the TEACh benchmark in both Execution
from Dialog History (EDH) and Trajectory from Dialogue (TfD), with 1.7x
improvement over the previous SOTA for TfD. Our models, code and video results
can be found in our project's website: https://helper-agent-llm.github.io.
- Abstract(参考訳): 事前訓練され、凍結されたllmは、簡単なシーン再配置命令をロボットの視覚機能上のプログラムに、適切なサンプルプロンプトを通じて効果的にマッピングすることができる。
オープンドメインの自然言語を解析し、迅速なエンジニアリング時間中に未知のユーザの慣用的手順に適応させるには、固定プロンプトが不足する。
本稿では,言語プログラムペアの外部メモリを備えたエンボディエージェントであるHELPERについて述べる。HELPERは,LLMクエリの現在の対話,命令,修正,VLM記述に基づいて関連する記憶を検索し,LLMクエリのインコンテクストプロンプトの例として利用する。
メモリはデプロイメント中に拡張され、ユーザの言語とアクションプランのペアが含まれ、将来の推論を支援し、ユーザの言語とルーチンにパーソナライズする。
HELPERは、ダイアログヒストリー(EDH)とトラジェクトリ・オブ・ダイアログ(TfD)の両方でTEAChベンチマークの新たな最先端を設定しており、以前のSOTA for TfDよりも1.7倍改善されている。
私たちのモデル、コード、ビデオの結果は、プロジェクトのWebサイト(https://helper-agent-llm.github.io.)で確認できます。
関連論文リスト
- HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models [13.963676467274109]
我々は、より広い例とプロンプトでメモリを拡張することで、HELPERの機能を拡張する。
この単純なHELPERの共有メモリへの拡張により、エージェントは対話、自然言語の命令、アクティブな質問、一般的な部屋の再編成から計画を実行するドメイン間で作業することができる。
本稿では,AChRED,TAA,DialFRED,Tidy Taskの4種類の対話型視覚言語エンボディエージェントについて評価を行った。
論文 参考訳(メタデータ) (2024-04-29T19:12:42Z) - Apollonion: Profile-centric Dialog Agent [9.657755354649048]
本稿では,ユーザプロファイリング(初期化,更新)を組み込むダイアログエージェントのフレームワークを提案する。
本稿では,パーソナライズのための一連の評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-04-10T03:32:41Z) - Interpreting User Requests in the Context of Natural Language Standing
Instructions [89.12540932734476]
我々は17のドメインにまたがる2.4K以上の対話からなる言語とプログラムのデータセットであるNLSIを開発した。
NLSIの鍵となる課題は、ある対話に適用可能なスタンディング命令のサブセットを特定することである。
論文 参考訳(メタデータ) (2023-11-16T11:19:26Z) - Instruction-Following Speech Recognition [21.591086644665197]
本稿では,命令追従音声認識を導入し,多様な自由形式のテキスト命令の理解と実行を行うリステン・アテンド・スペルモデルを訓練する。
注目すべきは、我々のモデルは、Librispeechでゼロから訓練され、大規模言語モデルや事前訓練された音声モジュールを必要とせずに、簡単な命令を解釈し、実行します。
論文 参考訳(メタデータ) (2023-09-18T14:59:10Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - AmadeusGPT: a natural language interface for interactive animal
behavioral analysis [65.55906175884748]
動作の自然言語記述をマシン実行可能なコードに変換する自然言語インタフェースであるAmadeusGPTを紹介する。
MABE 2022の動作課題タスクで最先端のパフォーマンスを実現できることを示す。
アマデウスGPTは、深い生物学的知識、大規模言語モデル、そしてコアコンピュータビジョンモジュールをより自然に知的なシステムに統合する新しい方法を提示している。
論文 参考訳(メタデータ) (2023-07-10T19:15:17Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。