論文の概要: SteP: Stacked LLM Policies for Web Actions
- arxiv url: http://arxiv.org/abs/2310.03720v2
- Date: Mon, 22 Apr 2024 20:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:55:12.585304
- Title: SteP: Stacked LLM Policies for Web Actions
- Title(参考訳): SteP: Webアクションのためのスタック化されたLLMポリシー
- Authors: Paloma Sodhi, S. R. K. Branavan, Yoav Artzi, Ryan McDonald,
- Abstract要約: 本稿では,Web アクションのためのスタック型 LLM ポリシー (SteP) を提案する。
StePは、状態が制御状態を表すポリシーのスタックであるマルコフ決定プロセスを定義する。
我々は、WebArena、MiniWoB++、CRMシミュレータなど、複数のベースラインとWeb環境に対してStePを評価する。
- 参考スコア(独自算出の注目度): 17.038201462039453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performing tasks on the web presents fundamental challenges to large language models (LLMs), including combinatorially large open-world tasks and variations across web interfaces. Simply specifying a large prompt to handle all possible behaviors and states is extremely complex, and results in behavior leaks between unrelated behaviors. Decomposition to distinct policies can address this challenge, but requires carefully handing off control between policies. We propose Stacked LLM Policies for Web Actions (SteP), an approach to dynamically compose policies to solve a diverse set of web tasks. SteP defines a Markov Decision Process where the state is a stack of policies representing the control state, i.e., the chain of policy calls. Unlike traditional methods that are restricted to static hierarchies, SteP enables dynamic control that adapts to the complexity of the task. We evaluate SteP against multiple baselines and web environments including WebArena, MiniWoB++, and a CRM simulator. On WebArena, SteP improves (14.9% to 35.8%) over SOTA that use GPT-4 policies, while on MiniWob++, SteP is competitive with prior works while using significantly less data. Our code and data is available at https://asappresearch.github.io/webagents-step.
- Abstract(参考訳): ウェブ上でのタスク実行は大きな言語モデル(LLM)に根本的な課題をもたらし、組み合わさった大規模なオープンワールドタスクやWebインターフェース間のバリエーションがある。
すべての可能性のある行動や状態を扱うための大きなプロンプトを単純に指定するのは極めて複雑であり、結果として無関係な動作間の動作リークが発生する。
異なるポリシーの分解はこの課題に対処できるが、ポリシー間の制御を慎重に行う必要がある。
SteP(Stacked LLM Policies for Web Actions)は,多種多様なWebタスクを動的に構成する手法である。
StePは、状態が制御状態、すなわちポリシー呼び出しの連鎖を表すポリシーのスタックであるマルコフ決定プロセスを定義する。
静的階層に制限された従来のメソッドとは異なり、StePはタスクの複雑さに適応する動的制御を可能にする。
我々は、WebArena、MiniWoB++、CRMシミュレータなど、複数のベースラインとWeb環境に対してStePを評価する。
WebArenaでは、StePはGPT-4ポリシーを使用するSOTAよりも14.9%から35.8%改善されている。
私たちのコードとデータはhttps://asappresearch.github.io/webagents-stepで公開されています。
関連論文リスト
- WebPilot: A Versatile and Autonomous Multi-Agent System for Web Task Execution with Strategic Exploration [42.8636989730348]
既存のLLMベースのWebエージェントは、特定の州や行動に特有の厳格で専門家が設計したポリシーに依存している。
人間は未知を探索し、戦略を継続的に順応し、探索を通じてあいまいさを解消することで優れる。
我々は,モンテカルロ木探索(MCTS)を改良し,複雑なWeb環境をよりよく扱うマルチエージェントシステムであるWebPilotを開発した。
論文 参考訳(メタデータ) (2024-08-28T17:49:29Z) - Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot
Policy Imitation [45.312333134810665]
数発の模倣に取り組む最先端の手法はメタラーニングに依存している。
近年の研究では、ファインチューナーは画像分類タスクにおいてメタラーナーよりも優れていることが示されている。
人気の高いOpenAI-Gym MuJoCo環境の154種類からなるiMuJoCoと呼ばれるオープンソースデータセットをリリースする。
論文 参考訳(メタデータ) (2023-06-23T15:29:15Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Guided Imitation of Task and Motion Planning [9.072286070266092]
我々は,タスクと行動計画の成果を模倣する政策を訓練する。
これにより、感覚データから多段階のタスクを達成できるフィードフォワードポリシが生成される。
7-DoF関節制御によるロボット操作タスクでは、部分的に訓練されたポリシーにより、計画に必要な時間を最大2.6倍に短縮する。
論文 参考訳(メタデータ) (2021-12-06T22:22:37Z) - OffCon$^3$: What is state of the art anyway? [20.59974596074688]
モデルフリー連続制御タスクに対する2つの一般的なアプローチは、SACとTD3である。
TD3 は DPG から派生したもので、決定論的ポリシーを用いて値関数に沿ってポリシー上昇を行う。
OffCon$3$は、両方のアルゴリズムの最先端バージョンを特徴とするコードベースである。
論文 参考訳(メタデータ) (2021-01-27T11:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。