論文の概要: HeaP: Hierarchical Policies for Web Actions using LLMs
- arxiv url: http://arxiv.org/abs/2310.03720v1
- Date: Thu, 5 Oct 2023 17:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 13:17:16.683272
- Title: HeaP: Hierarchical Policies for Web Actions using LLMs
- Title(参考訳): heap: llmsを使ったwebアクションの階層ポリシー
- Authors: Paloma Sodhi, S.R.K. Branavan, Ryan McDonald
- Abstract要約: 大規模言語モデル(LLM)は、少数かつゼロショット設定でタスクに続く命令を実行する際、顕著な機能を示した。
我々は、LLMを活用してWebタスクをサブタスクの集合に分解し、各タスクを低レベルのクローズドループポリシーで解決する。
LLM(HeaP)を用いたWebアクションのための階層型ポリシー(Hierarchical Policies for Web Actions)を提案する。
- 参考スコア(独自算出の注目度): 5.921187184647219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities in
performing a range of instruction following tasks in few and zero-shot
settings. However, teaching LLMs to perform tasks on the web presents
fundamental challenges -- combinatorially large open-world tasks and variations
across web interfaces. We tackle these challenges by leveraging LLMs to
decompose web tasks into a collection of sub-tasks, each of which can be solved
by a low-level, closed-loop policy. These policies constitute a shared grammar
across tasks, i.e., new web tasks can be expressed as a composition of these
policies. We propose a novel framework, Hierarchical Policies for Web Actions
using LLMs (HeaP), that learns a set of hierarchical LLM prompts from
demonstrations for planning high-level tasks and executing them via a sequence
of low-level policies. We evaluate HeaP against a range of baselines on a suite
of web tasks, including MiniWoB++, WebArena, a mock airline CRM, as well as
live website interactions, and show that it is able to outperform prior works
using orders of magnitude less data.
- Abstract(参考訳): 大規模言語モデル(LLM)は、少数かつゼロショット設定でタスクに続く命令を実行する際、顕著な機能を示した。
しかし、LLMにWeb上でタスクを実行するように教えることには、基本的な課題がある。
我々はLLMを活用してWebタスクをサブタスクの集合に分解し、それらを低レベルのクローズドループポリシーで解決する。
これらのポリシーは、タスク間の共通文法、すなわち、新しいwebタスクをこれらのポリシーの構成として表現することができる。
llms(heap)を用いたwebアクションのための階層ポリシーという新しいフレームワークを提案し,高レベルタスクを計画し,低レベルポリシのシーケンスを通じて実行するためのデモンストレーションから階層的llmプロンプトのセットを学習する。
我々は、MiniWoB++、WebArena、モック航空CRM、ライブWebサイトのインタラクションなど、一連のWebタスクのベースラインに対してHeaPを評価し、桁違いに少ないデータで先行作業より優れていることを示す。
関連論文リスト
- Fat-to-Thin Policy Optimization: Offline RL with Sparse Policies [5.5938591697033555]
スパース連続ポリシー(sparse continuous policy)は、ランダムにいくつかのアクションを選択するが、他のアクションの確率を厳密にゼロにする分布である。
本稿では,Fat-to-Thin Policy Optimization (FtTPO) という,この問題に対処する最初のオフラインポリシ最適化アルゴリズムを提案する。
FtTPOを、ヘビーテールとスパースポリシーの両方を含む一般的な$q$-Gaussianファミリーでインスタンス化する。
論文 参考訳(メタデータ) (2025-01-24T10:11:48Z) - WebPilot: A Versatile and Autonomous Multi-Agent System for Web Task Execution with Strategic Exploration [42.8636989730348]
既存のLLMベースのWebエージェントは、特定の州や行動に特有の厳格で専門家が設計したポリシーに依存している。
人間は未知を探索し、戦略を継続的に順応し、探索を通じてあいまいさを解消することで優れる。
我々は,モンテカルロ木探索(MCTS)を改良し,複雑なWeb環境をよりよく扱うマルチエージェントシステムであるWebPilotを開発した。
論文 参考訳(メタデータ) (2024-08-28T17:49:29Z) - Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot
Policy Imitation [45.312333134810665]
数発の模倣に取り組む最先端の手法はメタラーニングに依存している。
近年の研究では、ファインチューナーは画像分類タスクにおいてメタラーナーよりも優れていることが示されている。
人気の高いOpenAI-Gym MuJoCo環境の154種類からなるiMuJoCoと呼ばれるオープンソースデータセットをリリースする。
論文 参考訳(メタデータ) (2023-06-23T15:29:15Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Guided Imitation of Task and Motion Planning [9.072286070266092]
我々は,タスクと行動計画の成果を模倣する政策を訓練する。
これにより、感覚データから多段階のタスクを達成できるフィードフォワードポリシが生成される。
7-DoF関節制御によるロボット操作タスクでは、部分的に訓練されたポリシーにより、計画に必要な時間を最大2.6倍に短縮する。
論文 参考訳(メタデータ) (2021-12-06T22:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。