Fugu-MT 論文翻訳(概要): Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer Control

論文の概要: Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer Control

arxiv url: http://arxiv.org/abs/2306.07863v3
Date: Fri, 19 Jan 2024 06:59:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 19:17:40.586722
Title: Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer Control
Title（参考訳）: Synapse: コンピュータ制御のためのメモリ付きトラジェクトリ・アズ・エグゼプティブ・プロンプティング
Authors: Longtao Zheng, Rundong Wang, Xinrun Wang, Bo An
Abstract要約: コンピュータ制御のための大きな言語モデルを持つエージェントを構築することは、エージェントがコンピュータの状態を受け取り、タスクを完了するためのアクションを実行する、急成長する研究領域である。従来のコンピュータエージェントは、インコンテキスト学習(ICL)の利点を実証してきたが、その性能はいくつかの問題によって妨げられている。 i) タスク非関連情報を原状態からフィルタリングし、制限されたコンテキスト内でより多くの例を示し、i) トラジェクトリ・アズ・インタープロンプトを可能にし、LLMに抽象化された状態の完全なトラジェクトリとアクションを誘導し、マルチステップ決定を改善する。
参考スコア（独自算出の注目度）: 23.115574119132507
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Building agents with large language models (LLMs) for computer control is a burgeoning research area, where the agent receives computer states and performs actions to complete complex tasks. Previous computer agents have demonstrated the benefits of in-context learning (ICL); however, their performance is hindered by several issues. First, the limited context length of LLMs and complex computer states restrict the number of exemplars, as a single webpage can consume the entire context. Second, the exemplars in current methods, such as high-level plans and multi-choice questions, cannot represent complete trajectories, leading to suboptimal performance in long-horizon tasks. Third, existing computer agents rely on task-specific exemplars and overlook the similarity among tasks, resulting in poor generalization to novel tasks. To address these challenges, we introduce Synapse, a computer agent featuring three key components: i) state abstraction, which filters out task-irrelevant information from raw states, allowing more exemplars within the limited context, ii) trajectory-as-exemplar prompting, which prompts the LLM with complete trajectories of the abstracted states and actions to improve multi-step decision-making, and iii) exemplar memory, which stores the embeddings of exemplars and retrieves them via similarity search for generalization to novel tasks. We evaluate Synapse on MiniWoB++, a standard task suite, and Mind2Web, a real-world website benchmark. In MiniWoB++, Synapse achieves a 99.2% average success rate (a 10% relative improvement) across 64 tasks using demonstrations from only 48 tasks. Notably, Synapse is the first ICL method to solve the book-flight task in MiniWoB++. Synapse also exhibits a 56% relative improvement in average step success rate over the previous state-of-the-art prompting scheme in Mind2Web.
Abstract（参考訳）: コンピュータ制御のための大規模言語モデル(LLM)を用いたエージェントの構築は、エージェントがコンピュータの状態を受け取り、複雑なタスクを完了するためのアクションを実行する、急成長する研究領域である。従来のコンピュータエージェントは、インコンテキスト学習(ICL)の利点を実証してきたが、その性能はいくつかの問題によって妨げられている。第一に、LLMと複雑なコンピュータ状態の限られたコンテキスト長は、単一のWebページがコンテキスト全体を消費できるため、例題の数を制限する。第2に、ハイレベルプランやマルチチョイス問題といった現在の手法の例では、完全な軌道を表現できないため、長いホリゾンタスクの最適性能が低下する。第3に、既存のコンピュータエージェントはタスク固有の例に頼り、タスク間の類似性を見落とし、新しいタスクへの一般化が不十分になる。これらの課題に対処するため、我々は3つの重要なコンポーネントを特徴とするコンピュータエージェントであるsynapseを紹介する。 i) 生の状態からタスクに無関係な情報をフィルタリングし、限られたコンテキスト内でより多くの例示を可能にする状態抽象化。二多段階の意思決定を改善するために、抽象状態及び行動の完全な軌跡をllmに促す軌道−as-exemplarプロンプト三 exemplar memoryは、exemplarsの埋め込みを格納し、これらを類似性検索により検索し、新規なタスクの一般化を行う。標準タスクスイートであるMiniWoB++のSynapseと,実世界のWebサイトベンチマークであるMind2Webを評価した。 miniwob++では、synapseはたった48のタスクのデモを使用して、64のタスクの平均成功率(相対的に改善)を99.2%達成している。特に、SynapseはMiniWoB++でブックフライタスクを解決する最初のICLメソッドである。 Synapseはまた、Mind2Webの以前の最先端プロンプトスキームよりも平均ステップ成功率を56%改善した。

関連論文リスト

Computer-Using World Model [58.59112582915026]
我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。 CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
論文参考訳（メタデータ） (2026-02-19T13:48:29Z)
Towards General Computer Control with Hierarchical Agents and Multi-Level Action Spaces [5.258138614911196]
我々は,OS制御を2段階のオプションプロセスとして定式化する軽量階層型強化学習フレームワークであるComputerAgentを導入する。 135の現実世界のデスクトップタスクで、ComputerAgentは92.1%の簡単なタスクで成功し、58.8%のハードタスクで成功している。その結果、階層型RLは、コンピュータ制御のためのモノリシックMLLMベースの自動化に代わる実用的でスケーラブルな代替手段を提供することを示した。
論文参考訳（メタデータ） (2025-09-22T13:14:47Z)
MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文参考訳（メタデータ） (2025-06-18T19:44:46Z)
AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents [60.881609323604685]
Agent Synthはスケーラブルで費用効率のよいパイプラインで、高品質なタスクとトラジェクトリデータセットを自動的に合成する。我々のパイプラインは1軌道あたりの平均コストが0.60ドルで、人間のアノテーションよりも桁違いに安い。
論文参考訳（メタデータ） (2025-06-17T05:46:52Z)
Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [59.83524388782554]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文参考訳（メタデータ） (2025-05-19T15:09:23Z)
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-02-20T05:41:55Z)
Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文参考訳（メタデータ） (2024-10-10T17:43:51Z)
Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文参考訳（メタデータ） (2024-09-28T23:05:56Z)
CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。 AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文参考訳（メタデータ） (2024-06-11T05:21:20Z)
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。 OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文参考訳（メタデータ） (2024-04-11T17:56:05Z)
Data-CUBE: Data Curriculum for Instruction-based Sentence Representation Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文参考訳（メタデータ） (2024-01-07T18:12:20Z)
A Zero-Shot Language Agent for Computer Control with Structured Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文参考訳（メタデータ） (2023-10-12T21:53:37Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
Language Models can Solve Computer Tasks [13.914130729517584]
学習済みの大規模言語モデル(LLM)エージェントは,簡単なプロンプトスキームを用いて自然言語で指導されたコンピュータタスクを実行できることを示す。複数のLLMを比較し,InstructGPT-3+RLHF LLMがMiniWoB++の最先端であることを示す。
論文参考訳（メタデータ） (2023-03-30T16:01:52Z)
Fast Inference and Transfer of Compositional Task Structures for Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文参考訳（メタデータ） (2022-05-25T10:44:25Z)
Environment Generation for Zero-Shot Compositional Reinforcement Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。 CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文参考訳（メタデータ） (2022-01-21T21:35:01Z)
Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文参考訳（メタデータ） (2021-04-28T16:45:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。