論文の概要: HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models
- arxiv url: http://arxiv.org/abs/2404.19065v1
- Date: Mon, 29 Apr 2024 19:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:10:13.500293
- Title: HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models
- Title(参考訳): HELPER-X: メモリ拡張言語モデルによる4つの対話型視覚言語ドメインに対処するための統一型インストラクタ
- Authors: Gabriel Sarch, Sahil Somani, Raghav Kapoor, Michael J. Tarr, Katerina Fragkiadaki,
- Abstract要約: 我々は、より広い例とプロンプトでメモリを拡張することで、HELPERの機能を拡張する。
この単純なHELPERの共有メモリへの拡張により、エージェントは対話、自然言語の命令、アクティブな質問、一般的な部屋の再編成から計画を実行するドメイン間で作業することができる。
本稿では,AChRED,TAA,DialFRED,Tidy Taskの4種類の対話型視覚言語エンボディエージェントについて評価を行った。
- 参考スコア(独自算出の注目度): 13.963676467274109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research on instructable agents has used memory-augmented Large Language Models (LLMs) as task planners, a technique that retrieves language-program examples relevant to the input instruction and uses them as in-context examples in the LLM prompt to improve the performance of the LLM in inferring the correct action and task plans. In this technical report, we extend the capabilities of HELPER, by expanding its memory with a wider array of examples and prompts, and by integrating additional APIs for asking questions. This simple expansion of HELPER into a shared memory enables the agent to work across the domains of executing plans from dialogue, natural language instruction following, active question asking, and commonsense room reorganization. We evaluate the agent on four diverse interactive visual-language embodied agent benchmarks: ALFRED, TEACh, DialFRED, and the Tidy Task. HELPER-X achieves few-shot, state-of-the-art performance across these benchmarks using a single agent, without requiring in-domain training, and remains competitive with agents that have undergone in-domain training.
- Abstract(参考訳): インストラクタブルエージェントの最近の研究は、メモリ拡張型大規模言語モデル(LLM)をタスクプランナとして使用しており、入力命令に関連する言語プログラム例を検索し、LLMプロンプトのインコンテクスト例として使用することで、正しいアクションとタスクプランを推測する際のLCMの性能を向上させる。
本技術報告では,HELPERのメモリを広い範囲のサンプルとプロンプトで拡張し,質問のための追加APIを統合することにより,HELPERの機能を拡張する。
この単純なHELPERの共有メモリへの拡張により、エージェントは対話、自然言語の指示に従うこと、アクティブな質問、コモンセンスルームの再編成から計画を実行するドメイン間で作業することができる。
ALFRED, TEACh, DialFRED, Tidy Taskの4種類の対話型視覚言語エンボディエージェントベンチマークにおいて, エージェントの評価を行った。
HELPER-Xは、ドメイン内のトレーニングを必要とせずに、単一のエージェントを使用して、これらのベンチマークで、数発の最先端のパフォーマンスを実現し、ドメイン内のトレーニングを受けたエージェントと競合し続ける。
関連論文リスト
- AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction [10.65417796726349]
複雑なシナリオにおける関係抽出(RE)は、多種多様な関係型や単一の文内のエンティティ間のあいまいな関係のような課題に直面します。
本稿では,複雑なシナリオにおいてREを実現するために,大規模言語モデルの可能性を完全に活用するエージェントベースのREフレームワークであるAgentREを提案する。
論文 参考訳(メタデータ) (2024-09-03T12:53:05Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - Memory Sharing for Large Language Model based Agents [43.53494041932615]
本稿では,リアルタイムメモリフィルタ,ストレージ,検索を統合し,In-Context学習プロセスを強化するためのフレームワークであるMemory Sharingを紹介する。
実験の結果,MSフレームワークはオープンな質問に対処する際のエージェントの性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-04-15T17:57:30Z) - From LLM to Conversational Agent: A Memory Enhanced Architecture with
Fine-Tuning of Large Language Models [11.999652715036643]
RAISE(Reasoning and Acting through Scratchpad and Examples)は、LLM(Large Language Models)を対話エージェントに統合する高度なアーキテクチャである。
会話の文脈と連続性を維持するために、人間の短期記憶と長期記憶をミラーリングするデュアルコンポーネントメモリシステムを備えている。
論文 参考訳(メタデータ) (2024-01-05T12:26:46Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Open-Ended Instructable Embodied Agents with Memory-Augmented Large
Language Models [19.594361652336996]
本稿では,言語プログラムペアの外部メモリを備えたエンボディエージェントであるHELPERを紹介する。
関連する記憶は、現在の対話、命令、修正、またはVLM記述に基づいて検索される。
HELPERは、ダイアログヒストリ(EDH)とトラジェクトリ(TfD)の両方でTEAChベンチマークに新しい最先端を設定している。
論文 参考訳(メタデータ) (2023-10-23T17:31:55Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - Leveraging Explicit Procedural Instructions for Data-Efficient Action
Prediction [5.448684866061922]
タスク指向の対話は、しばしばエージェントがユーザ要求を満たすために複雑で多段階の手順を実行する必要がある。
大規模言語モデルは、制約のある環境でこれらの対話を自動化することに成功したが、その広範な展開は、トレーニングに必要なタスク固有の大量のデータによって制限されている。
本稿では,エージェントガイドラインから導出した明示的な指示を利用して対話システムを構築するための,データ効率のよいソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-06T18:42:08Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。