論文の概要: Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer
Control
- arxiv url: http://arxiv.org/abs/2306.07863v3
- Date: Fri, 19 Jan 2024 06:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 19:17:40.586722
- Title: Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer
Control
- Title(参考訳): Synapse: コンピュータ制御のためのメモリ付きトラジェクトリ・アズ・エグゼプティブ・プロンプティング
- Authors: Longtao Zheng, Rundong Wang, Xinrun Wang, Bo An
- Abstract要約: コンピュータ制御のための大きな言語モデルを持つエージェントを構築することは、エージェントがコンピュータの状態を受け取り、タスクを完了するためのアクションを実行する、急成長する研究領域である。
従来のコンピュータエージェントは、インコンテキスト学習(ICL)の利点を実証してきたが、その性能はいくつかの問題によって妨げられている。
i) タスク非関連情報を原状態からフィルタリングし、制限されたコンテキスト内でより多くの例を示し、i) トラジェクトリ・アズ・インタープロンプトを可能にし、LLMに抽象化された状態の完全なトラジェクトリとアクションを誘導し、マルチステップ決定を改善する。
- 参考スコア(独自算出の注目度): 23.115574119132507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building agents with large language models (LLMs) for computer control is a
burgeoning research area, where the agent receives computer states and performs
actions to complete complex tasks. Previous computer agents have demonstrated
the benefits of in-context learning (ICL); however, their performance is
hindered by several issues. First, the limited context length of LLMs and
complex computer states restrict the number of exemplars, as a single webpage
can consume the entire context. Second, the exemplars in current methods, such
as high-level plans and multi-choice questions, cannot represent complete
trajectories, leading to suboptimal performance in long-horizon tasks. Third,
existing computer agents rely on task-specific exemplars and overlook the
similarity among tasks, resulting in poor generalization to novel tasks. To
address these challenges, we introduce Synapse, a computer agent featuring
three key components: i) state abstraction, which filters out task-irrelevant
information from raw states, allowing more exemplars within the limited
context, ii) trajectory-as-exemplar prompting, which prompts the LLM with
complete trajectories of the abstracted states and actions to improve
multi-step decision-making, and iii) exemplar memory, which stores the
embeddings of exemplars and retrieves them via similarity search for
generalization to novel tasks. We evaluate Synapse on MiniWoB++, a standard
task suite, and Mind2Web, a real-world website benchmark. In MiniWoB++, Synapse
achieves a 99.2% average success rate (a 10% relative improvement) across 64
tasks using demonstrations from only 48 tasks. Notably, Synapse is the first
ICL method to solve the book-flight task in MiniWoB++. Synapse also exhibits a
56% relative improvement in average step success rate over the previous
state-of-the-art prompting scheme in Mind2Web.
- Abstract(参考訳): コンピュータ制御のための大規模言語モデル(LLM)を用いたエージェントの構築は、エージェントがコンピュータの状態を受け取り、複雑なタスクを完了するためのアクションを実行する、急成長する研究領域である。
従来のコンピュータエージェントは、インコンテキスト学習(ICL)の利点を実証してきたが、その性能はいくつかの問題によって妨げられている。
第一に、LLMと複雑なコンピュータ状態の限られたコンテキスト長は、単一のWebページがコンテキスト全体を消費できるため、例題の数を制限する。
第2に、ハイレベルプランやマルチチョイス問題といった現在の手法の例では、完全な軌道を表現できないため、長いホリゾンタスクの最適性能が低下する。
第3に、既存のコンピュータエージェントはタスク固有の例に頼り、タスク間の類似性を見落とし、新しいタスクへの一般化が不十分になる。
これらの課題に対処するため、我々は3つの重要なコンポーネントを特徴とするコンピュータエージェントであるsynapseを紹介する。
i) 生の状態からタスクに無関係な情報をフィルタリングし、限られたコンテキスト内でより多くの例示を可能にする状態抽象化。
二 多段階の意思決定を改善するために、抽象状態及び行動の完全な軌跡をllmに促す軌道−as-exemplarプロンプト
三 exemplar memoryは、exemplarsの埋め込みを格納し、これらを類似性検索により検索し、新規なタスクの一般化を行う。
標準タスクスイートであるMiniWoB++のSynapseと,実世界のWebサイトベンチマークであるMind2Webを評価した。
miniwob++では、synapseはたった48のタスクのデモを使用して、64のタスクの平均成功率(相対的に改善)を99.2%達成している。
特に、SynapseはMiniWoB++でブックフライタスクを解決する最初のICLメソッドである。
Synapseはまた、Mind2Webの以前の最先端プロンプトスキームよりも平均ステップ成功率を56%改善した。
関連論文リスト
- PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - A Zero-Shot Language Agent for Computer Control with Structured
Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。
タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。
我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文 参考訳(メタデータ) (2023-10-12T21:53:37Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。