Fugu-MT 論文翻訳(概要): Synapse: Leveraging Few-Shot Exemplars for Human-Level Computer Control

論文の概要: Synapse: Leveraging Few-Shot Exemplars for Human-Level Computer Control

arxiv url: http://arxiv.org/abs/2306.07863v1
Date: Tue, 13 Jun 2023 15:49:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-14 13:03:24.658227
Title: Synapse: Leveraging Few-Shot Exemplars for Human-Level Computer Control
Title（参考訳）: Synapse:人間レベルコンピュータ制御のためのFew-Shot Exemplarsの活用
Authors: Longtao Zheng, Rundong Wang, Bo An
Abstract要約: 我々は,MiniWob++ベンチマークで人間レベルの性能を示す,コンテキスト内コンピュータ制御エージェントであるSynapseを提案する。シナプスは3つの主要な構成要素から構成される: 1) エージェントが新しい環境状態の必要性に基づいてデモを模範集合に分割する状態条件分解、2) 時間的抽象化を可能にする構造的プロンプト、2) 計画の正しさを改善するために各セットのタスク記述をフィルタリングし再構成する構造的プロンプト、3) マルチタスク適応と一般化のための模範データベースにおいて、入力タスクと対応する例を関連付ける例検索。
参考スコア（独自算出の注目度）: 21.71171393156011
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates the design of few-shot exemplars for computer automation through prompting large language models (LLMs). While previous prompting approaches focus on self-correction, we find that well-structured exemplars alone are sufficient for human-level performance. We present Synapse, an in-context computer control agent demonstrating human-level performance on the MiniWob++ benchmark. Synapse consists of three main components: 1) state-conditional decomposition, which divides demonstrations into exemplar sets based on the agent's need for new environment states, enabling temporal abstraction; 2) structured prompting, which filters states and reformulates task descriptions for each set to improve planning correctness; and 3) exemplar retrieval, which associates incoming tasks with corresponding exemplars in an exemplar database for multi-task adaptation and generalization. Synapse overcomes context length limits, reduces errors in multi-step control, and allows for more exemplars within the context. Importantly, Synapse complements existing prompting approaches that enhance LLMs' reasoning and planning abilities. Synapse outperforms previous methods, including behavioral cloning, reinforcement learning, finetuning, and prompting, with an average success rate of $98.5\%$ across 63 tasks in MiniWob++. Notably, Synapse relies on exemplars from only 47 tasks, demonstrating effective generalization to novel tasks. Our results highlight the potential of in-context learning to advance the integration of LLMs into practical tool automation.
Abstract（参考訳）: 本稿では,大規模言語モデル (LLM) を推進し, コンピュータ自動化のための少数ショット例の設計について検討する。従来のプロンプトアプローチは自己補正に重点を置いていたが、十分に構造化された模範だけでは人間レベルのパフォーマンスに十分であることがわかった。我々はMiniWob++ベンチマークで人間レベルの性能を示すコンテキスト内コンピュータ制御エージェントであるSynapseを提案する。シナプスは3つの主要構成要素から構成される。 1) 実演をエージェントの新たな環境状態の必要性に基づいて模範集合に分割し,時間的抽象化を可能にする状態条件分解 2)計画の正確性を改善するために,各組のタスク記述をフィルタリングし,再編成する構造的プロンプト 3)マルチタスク適応と一般化のための例題データベースにおいて,入力タスクと対応する例題を関連付ける例題検索を行う。 Synapseはコンテキスト長制限を克服し、マルチステップ制御におけるエラーを低減し、コンテキスト内でのより優れた実装を可能にする。重要なことに、synapseはllmの推論と計画能力を強化する既存のプロンプトアプローチを補完する。 Synapseは、行動クローニング、強化学習、微調整、プロンプトといった従来の手法よりも優れており、MiniWob++の63タスクの平均成功率は9,8.5 %である。特に、Synapseは47のタスクの例に頼っており、新しいタスクへの効果的な一般化を実証している。本研究は,LLMの実践的ツール自動化への統合を促進するために,文脈内学習の可能性を強調した。

関連論文リスト

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文参考訳（メタデータ） (2025-06-18T19:44:46Z)
AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents [60.881609323604685]
Agent Synthはスケーラブルで費用効率のよいパイプラインで、高品質なタスクとトラジェクトリデータセットを自動的に合成する。我々のパイプラインは1軌道あたりの平均コストが0.60ドルで、人間のアノテーションよりも桁違いに安い。
論文参考訳（メタデータ） (2025-06-17T05:46:52Z)
Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [59.83524388782554]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文参考訳（メタデータ） (2025-05-19T15:09:23Z)
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-02-20T05:41:55Z)
Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文参考訳（メタデータ） (2024-10-10T17:43:51Z)
Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文参考訳（メタデータ） (2024-09-28T23:05:56Z)
CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。 AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文参考訳（メタデータ） (2024-06-11T05:21:20Z)
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。 OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文参考訳（メタデータ） (2024-04-11T17:56:05Z)
Data-CUBE: Data Curriculum for Instruction-based Sentence Representation Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文参考訳（メタデータ） (2024-01-07T18:12:20Z)
A Zero-Shot Language Agent for Computer Control with Structured Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文参考訳（メタデータ） (2023-10-12T21:53:37Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
Language Models can Solve Computer Tasks [13.914130729517584]
学習済みの大規模言語モデル(LLM)エージェントは,簡単なプロンプトスキームを用いて自然言語で指導されたコンピュータタスクを実行できることを示す。複数のLLMを比較し,InstructGPT-3+RLHF LLMがMiniWoB++の最先端であることを示す。
論文参考訳（メタデータ） (2023-03-30T16:01:52Z)
Fast Inference and Transfer of Compositional Task Structures for Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文参考訳（メタデータ） (2022-05-25T10:44:25Z)
Environment Generation for Zero-Shot Compositional Reinforcement Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。 CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文参考訳（メタデータ） (2022-01-21T21:35:01Z)
Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文参考訳（メタデータ） (2021-04-28T16:45:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。