論文の概要: Synapse: Leveraging Few-Shot Exemplars for Human-Level Computer Control
- arxiv url: http://arxiv.org/abs/2306.07863v1
- Date: Tue, 13 Jun 2023 15:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 13:03:24.658227
- Title: Synapse: Leveraging Few-Shot Exemplars for Human-Level Computer Control
- Title(参考訳): Synapse:人間レベルコンピュータ制御のためのFew-Shot Exemplarsの活用
- Authors: Longtao Zheng, Rundong Wang, Bo An
- Abstract要約: 我々は,MiniWob++ベンチマークで人間レベルの性能を示す,コンテキスト内コンピュータ制御エージェントであるSynapseを提案する。
シナプスは3つの主要な構成要素から構成される: 1) エージェントが新しい環境状態の必要性に基づいてデモを模範集合に分割する状態条件分解、2) 時間的抽象化を可能にする構造的プロンプト、2) 計画の正しさを改善するために各セットのタスク記述をフィルタリングし再構成する構造的プロンプト、3) マルチタスク適応と一般化のための模範データベースにおいて、入力タスクと対応する例を関連付ける例検索。
- 参考スコア(独自算出の注目度): 21.71171393156011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the design of few-shot exemplars for computer
automation through prompting large language models (LLMs). While previous
prompting approaches focus on self-correction, we find that well-structured
exemplars alone are sufficient for human-level performance. We present Synapse,
an in-context computer control agent demonstrating human-level performance on
the MiniWob++ benchmark. Synapse consists of three main components: 1)
state-conditional decomposition, which divides demonstrations into exemplar
sets based on the agent's need for new environment states, enabling temporal
abstraction; 2) structured prompting, which filters states and reformulates
task descriptions for each set to improve planning correctness; and 3) exemplar
retrieval, which associates incoming tasks with corresponding exemplars in an
exemplar database for multi-task adaptation and generalization. Synapse
overcomes context length limits, reduces errors in multi-step control, and
allows for more exemplars within the context. Importantly, Synapse complements
existing prompting approaches that enhance LLMs' reasoning and planning
abilities. Synapse outperforms previous methods, including behavioral cloning,
reinforcement learning, finetuning, and prompting, with an average success rate
of $98.5\%$ across 63 tasks in MiniWob++. Notably, Synapse relies on exemplars
from only 47 tasks, demonstrating effective generalization to novel tasks. Our
results highlight the potential of in-context learning to advance the
integration of LLMs into practical tool automation.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) を推進し, コンピュータ自動化のための少数ショット例の設計について検討する。
従来のプロンプトアプローチは自己補正に重点を置いていたが、十分に構造化された模範だけでは人間レベルのパフォーマンスに十分であることがわかった。
我々はMiniWob++ベンチマークで人間レベルの性能を示すコンテキスト内コンピュータ制御エージェントであるSynapseを提案する。
シナプスは3つの主要構成要素から構成される。
1) 実演をエージェントの新たな環境状態の必要性に基づいて模範集合に分割し,時間的抽象化を可能にする状態条件分解
2)計画の正確性を改善するために,各組のタスク記述をフィルタリングし,再編成する構造的プロンプト
3)マルチタスク適応と一般化のための例題データベースにおいて,入力タスクと対応する例題を関連付ける例題検索を行う。
Synapseはコンテキスト長制限を克服し、マルチステップ制御におけるエラーを低減し、コンテキスト内でのより優れた実装を可能にする。
重要なことに、synapseはllmの推論と計画能力を強化する既存のプロンプトアプローチを補完する。
Synapseは、行動クローニング、強化学習、微調整、プロンプトといった従来の手法よりも優れており、MiniWob++の63タスクの平均成功率は9,8.5 %である。
特に、Synapseは47のタスクの例に頼っており、新しいタスクへの効果的な一般化を実証している。
本研究は,LLMの実践的ツール自動化への統合を促進するために,文脈内学習の可能性を強調した。
関連論文リスト
- Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - A Zero-Shot Language Agent for Computer Control with Structured
Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。
タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。
我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文 参考訳(メタデータ) (2023-10-12T21:53:37Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Language Models can Solve Computer Tasks [13.914130729517584]
学習済みの大規模言語モデル(LLM)エージェントは,簡単なプロンプトスキームを用いて自然言語で指導されたコンピュータタスクを実行できることを示す。
複数のLLMを比較し,InstructGPT-3+RLHF LLMがMiniWoB++の最先端であることを示す。
論文 参考訳(メタデータ) (2023-03-30T16:01:52Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。