論文の概要: On the Multi-turn Instruction Following for Conversational Web Agents
- arxiv url: http://arxiv.org/abs/2402.15057v1
- Date: Fri, 23 Feb 2024 02:18:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:48:23.604089
- Title: On the Multi-turn Instruction Following for Conversational Web Agents
- Title(参考訳): 対話型webエージェントのマルチターン命令追従について
- Authors: Yang Deng, Xuan Zhang, Wenxuan Zhang, Yifei Yuan, See-Kiong Ng,
Tat-Seng Chua
- Abstract要約: 本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
- 参考スコア(独自算出の注目度): 83.51251174629084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web agents powered by Large Language Models (LLMs) have demonstrated
remarkable abilities in planning and executing multi-step interactions within
complex web-based environments, fulfilling a wide range of web navigation
tasks. Despite these advancements, the potential for LLM-powered agents to
effectively engage with sequential user instructions in real-world scenarios
has not been fully explored. In this work, we introduce a new task of
Conversational Web Navigation, which necessitates sophisticated interactions
that span multiple turns with both the users and the environment, supported by
a specially developed dataset named Multi-Turn Mind2Web (MT-Mind2Web). To
tackle the limited context length of LLMs and the context-dependency issue of
the conversational tasks, we further propose a novel framework, named
self-reflective memory-augmented planning (Self-MAP), which employs memory
utilization and self-reflection techniques. Extensive experiments are conducted
to benchmark the MT-Mind2Web dataset, and validate the effectiveness of the
proposed method.
- Abstract(参考訳): 大規模言語モデル(llm)を活用したwebエージェントは、複雑なwebベースの環境でのマルチステップインタラクションの計画と実行に際し、幅広いwebナビゲーションタスクを実現している。
これらの進歩にもかかわらず、LLMを利用したエージェントが現実のシナリオでシーケンシャルなユーザー命令を効果的に扱える可能性については、完全には研究されていない。
本研究では,マルチトゥルンマインド2Web(MT-Mind2Web)という特別に開発されたデータセットによって,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,会話型Webナビゲーションのタスクを紹介する。
さらに,LLMのコンテキスト長と会話タスクのコンテキスト依存性の問題に対処するために,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)という新しいフレームワークを提案する。
MT-Mind2Webデータセットのベンチマークを行い,提案手法の有効性を検証する。
関連論文リスト
- Multimodal Embodied Interactive Agent for Cafe Scene [86.81802927029976]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
具体的には,シーンの視覚的記憶を介し,大規模モデルとの組込み制御を容易にする,新しいMultimodal Environment Memory (MEM) モジュールを提案する。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web
Tasks [96.9727427788202]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language
Models [78.43468551763303]
我々は,動的ビデオタスクを扱うLLMによって駆動される包括的かつ概念的にエレガントなシステムであるドラモンGPTを考案した。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
3つのベンチマークでDoraemonGPTの有効性を広く評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - LLMind: Orchestrating AI and IoT with LLM for Complex Task Execution [20.186752447895994]
複雑なタスクを実行するためのIoTデバイス間で効果的なコラボレーションを可能にするAIエージェントフレームワークであるLLMindを提案する。
脳の機能的特殊化理論に触発されて、我々のフレームワークはLLMをドメイン固有のAIモジュールと統合し、その能力を高める。
論文 参考訳(メタデータ) (2023-12-14T14:57:58Z) - AllTogether: Investigating the Efficacy of Spliced Prompt for Web
Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-10-20T11:10:14Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - HeaP: Hierarchical Policies for Web Actions using LLMs [5.921187184647219]
大規模言語モデル(LLM)は、少数かつゼロショット設定でタスクに続く命令を実行する際、顕著な機能を示した。
我々は、LLMを活用してWebタスクをサブタスクの集合に分解し、各タスクを低レベルのクローズドループポリシーで解決する。
LLM(HeaP)を用いたWebアクションのための階層型ポリシー(Hierarchical Policies for Web Actions)を提案する。
論文 参考訳(メタデータ) (2023-10-05T17:40:09Z) - ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring
Instruction Tuning [24.87615615489849]
本稿では,ポイントやボックスなどの多様な参照表現を参照プロンプトとして用いて,特定の領域を参照するための正確な参照命令を提案する。
マウスクリックやドラッグアンドドロップ,描画ボックスなど,さまざまな形式の対話性をサポートする,エンドツーエンドの多モーダルな大規模言語モデルであるChatSpotを提案する。
論文 参考訳(メタデータ) (2023-07-18T17:56:06Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。