論文の概要: Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer
Control
- arxiv url: http://arxiv.org/abs/2306.07863v2
- Date: Fri, 6 Oct 2023 17:28:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 08:48:49.051891
- Title: Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer
Control
- Title(参考訳): Synapse: コンピュータ制御のためのメモリ付きトラジェクトリ・アズ・エグゼプティブ・プロンプティング
- Authors: Longtao Zheng, Rundong Wang, Xinrun Wang, Bo An
- Abstract要約: 大規模言語モデル(LLM)を用いてコンピュータを制御するエージェントは、エージェントがコンピュータの状態を認識し、複雑なタスクを達成するためのアクションを実行する、新たな研究分野である。
従来のコンピュータエージェントは、インコンテキスト学習(ICL)の利点を実証してきたが、その性能はいくつかの問題によって妨げられている。
i) タスク非関連情報を原状態からフィルタリングし、制限されたコンテキスト内でより見事な処理を可能にする、i) トラジェクトリ・アズ・エキサイティング(trajectory-as-exemplar prompting)により、抽象化された状態の完全なトラジェクトリと、マルチステップ決定を改善するためのアクションをLLMに促す、という3つの重要なコンポーネントを特徴とするSynapseを紹介します。
- 参考スコア(独自算出の注目度): 23.115574119132507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building agents using large language models (LLMs) to control computers is an
emerging research field, where the agent perceives computer states and performs
actions to accomplish complex tasks. Previous computer agents have demonstrated
the benefits of in-context learning (ICL); however, their performance is
hindered by several issues. First, the limited context length of LLMs and
complex computer states restrict the number of exemplars, as a single webpage
can consume the entire context. Second, the exemplars in current methods, such
as high-level plans and multi-choice questions, cannot represent complete
trajectories, leading to suboptimal performance in tasks that require many
steps or repeated actions. Third, existing computer agents rely on
task-specific exemplars and overlook the similarity among tasks, resulting in
poor generalization to novel tasks. To address these challenges, we introduce
Synapse, featuring three key components: i) state abstraction, which filters
out task-irrelevant information from raw states, allowing more exemplars within
the limited context, ii) trajectory-as-exemplar prompting, which prompts the
LLM with complete trajectories of the abstracted states and actions for
improved multi-step decision-making, and iii) exemplar memory, which stores the
embeddings of exemplars and retrieves them via similarity search for
generalization to novel tasks. We evaluate Synapse on MiniWoB++, a standard
task suite, and Mind2Web, a real-world website benchmark. In MiniWoB++, Synapse
achieves a 99.2% average success rate (a 10% relative improvement) across 64
tasks using demonstrations from only 48 tasks. Notably, Synapse is the first
ICL method to solve the book-flight task in MiniWoB++. Synapse also exhibits a
53% relative improvement in average step success rate over the previous
state-of-the-art prompting scheme in Mind2Web.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いてコンピュータを制御するエージェントは、エージェントがコンピュータの状態を認識し、複雑なタスクを達成するためのアクションを実行する、新たな研究分野である。
従来のコンピュータエージェントは、インコンテキスト学習(ICL)の利点を実証してきたが、その性能はいくつかの問題によって妨げられている。
第一に、LLMと複雑なコンピュータ状態の限られたコンテキスト長は、単一のWebページがコンテキスト全体を消費できるため、例題の数を制限する。
第二に、高レベルプランや複数選択質問のような現在の手法では、完全な軌跡を表現できないため、多くのステップや繰り返しアクションを必要とするタスクにおいて、最適以下のパフォーマンスが得られる。
第3に、既存のコンピュータエージェントはタスク固有の例に頼り、タスク間の類似性を見落とし、新しいタスクへの一般化が不十分になる。
これらの課題に対処するために、3つの重要なコンポーネントを特徴とするsynapseを紹介します。
i) 生の状態からタスクに無関係な情報をフィルタリングし、限られたコンテキスト内でより多くの例示を可能にする状態抽象化。
二 抽象状態の完全な軌跡及び多段階意思決定の改善のための行為をLCMに促す軌跡
三 exemplar memoryは、exemplarsの埋め込みを格納し、これらを類似性検索により検索し、新規なタスクの一般化を行う。
標準タスクスイートであるMiniWoB++のSynapseと,実世界のWebサイトベンチマークであるMind2Webを評価した。
miniwob++では、synapseはたった48のタスクのデモを使用して、64のタスクの平均成功率(相対的に改善)を99.2%達成している。
特に、SynapseはMiniWoB++でブックフライタスクを解決する最初のICLメソッドである。
Synapseはまた、Mind2Webのこれまでの最先端のプロンプトスキームよりも平均的なステップ成功率を53%改善している。
関連論文リスト
- Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - A Zero-Shot Language Agent for Computer Control with Structured
Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。
タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。
我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文 参考訳(メタデータ) (2023-10-12T21:53:37Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Language Models can Solve Computer Tasks [13.914130729517584]
学習済みの大規模言語モデル(LLM)エージェントは,簡単なプロンプトスキームを用いて自然言語で指導されたコンピュータタスクを実行できることを示す。
複数のLLMを比較し,InstructGPT-3+RLHF LLMがMiniWoB++の最先端であることを示す。
論文 参考訳(メタデータ) (2023-03-30T16:01:52Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。