論文の概要: Large Language Models Empowered Personalized Web Agents
- arxiv url: http://arxiv.org/abs/2410.17236v1
- Date: Tue, 22 Oct 2024 17:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:01.802601
- Title: Large Language Models Empowered Personalized Web Agents
- Title(参考訳): パーソナライズされたWebエージェントを活用した大規模言語モデル
- Authors: Hongru Cai, Yongqi Li, Wenjie Wang, Fengbin Zhu, Xiaoyu Shen, Wenjie Li, Tat-Seng Chua,
- Abstract要約: Webエージェントは、従来のエージェントから、LLM(Large Language Models)ベースのWebエージェントへと進化してきた。
まず, LLMを活用したパーソナライズされたWebエージェントのタスクを定式化し, パーソナライズされたデータとユーザ指示を統合する。
我々はパーソナライズされたユーザメモリ拡張アライメント(PUMA)フレームワークを提案し、パーソナライズされたWebエージェントタスクにLLMを適用する。
- 参考スコア(独自算出の注目度): 54.944908837494374
- License:
- Abstract: Web agents have emerged as a promising direction to automate Web task completion based on user instructions, significantly enhancing user experience. Recently, Web agents have evolved from traditional agents to Large Language Models (LLMs)-based Web agents. Despite their success, existing LLM-based Web agents overlook the importance of personalized data (e.g., user profiles and historical Web behaviors) in assisting the understanding of users' personalized instructions and executing customized actions. To overcome the limitation, we first formulate the task of LLM-empowered personalized Web agents, which integrate personalized data and user instructions to personalize instruction comprehension and action execution. To address the absence of a comprehensive evaluation benchmark, we construct a Personalized Web Agent Benchmark (PersonalWAB), featuring user instructions, personalized user data, Web functions, and two evaluation paradigms across three personalized Web tasks. Moreover, we propose a Personalized User Memory-enhanced Alignment (PUMA) framework to adapt LLMs to the personalized Web agent task. PUMA utilizes a memory bank with a task-specific retrieval strategy to filter relevant historical Web behaviors. Based on the behaviors, PUMA then aligns LLMs for personalized action execution through fine-tuning and direct preference optimization. Extensive experiments validate the superiority of PUMA over existing Web agents on PersonalWAB.
- Abstract(参考訳): Webエージェントは、ユーザインストラクションに基づいてWebタスクの完了を自動化し、ユーザエクスペリエンスを大幅に向上させる、有望な方向として登場した。
近年、Webエージェントは従来のエージェントからLLM(Large Language Models)ベースのWebエージェントへと進化してきた。
その成功にもかかわらず、既存のLLMベースのWebエージェントは、ユーザのパーソナライズされた指示の理解とカスタマイズされたアクションの実行を支援する上で、パーソナライズされたデータ(例えば、ユーザプロファイルや過去のWeb行動)の重要性を見落としている。
この制限を克服するために、まずLLMを利用したパーソナライズされたWebエージェントのタスクを定式化し、パーソナライズされたデータとユーザ命令を統合して、命令理解とアクション実行をパーソナライズする。
総合評価ベンチマークの欠如に対処するため,パーソナライズされたWebエージェントベンチマーク(PersonalWAB)を構築し,ユーザインストラクション,パーソナライズされたユーザデータ,Web関数,および3つのパーソナライズされたWebタスクに対する2つの評価パラダイムを特徴とする。
さらに、パーソナライズされたユーザメモリ拡張アライメント(PUMA)フレームワークを提案し、パーソナライズされたWebエージェントタスクにLLMを適用する。
PUMAは、タスク固有の検索戦略を備えたメモリバンクを使用して、関連する過去のWeb動作をフィルタリングする。
動作に基づいてPUMAは、微調整と直接選好最適化を通じてパーソナライズされたアクション実行のためにLLMを整列する。
大規模な実験により、PersonalWAB上の既存のWebエージェントよりもPUMAの方が優れていることが検証された。
関連論文リスト
- SmartAgent: Chain-of-User-Thought for Embodied Personalized Agent in Cyber World [50.937342998351426]
COUT(Chain-of-User-Thought)は、新しい推論パラダイムである。
我々は、サイバー環境を認識し、パーソナライズされた要求を推論するエージェントフレームワークであるSmartAgentを紹介する。
我々の研究は、まずCOUTプロセスを定式化し、パーソナライズされたエージェント学習を具体化するための予備的な試みとして役立ちます。
論文 参考訳(メタデータ) (2024-12-10T12:40:35Z) - ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data [18.129300915372415]
大規模言語モデル(LLM)エージェントは、ますます複雑なWebベースのタスクを処理するために急速に改善されている。
汎用 LLM は、HTML のような特別な Web コンテキストを理解するために特別に訓練されていない。
我々は、60億のトークンに対応する250以上のドメインから収集された実運用規模のワークフローデータを用いて、オープンソースLLMを微調整する別のアプローチを探る。
論文 参考訳(メタデータ) (2024-11-22T15:26:23Z) - Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [23.1522773245956]
モデルベースプランニングで言語エージェントを増強する新しいパラダイムを導入する。
我々の方法であるWebDreamerは、LLMが本質的にウェブサイトの構造や機能に関する包括的知識をエンコードしているというキーインサイトを構築している。
論文 参考訳(メタデータ) (2024-11-10T18:50:51Z) - Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents [68.22496852535937]
本稿では,事前訓練された大規模言語モデル(LLM)を,直接微調整なしで対象ドメインのエージェントとして適用する手法であるAuto-Intentを紹介する。
提案手法はまず,対象領域の実証から意図を教師なしで発見する。
我々は、エージェントの過去の観察と行動から次の意図を予測するために、意図予測器を訓練する。
論文 参考訳(メタデータ) (2024-10-29T21:37:04Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - MIMIR: A Streamlined Platform for Personalized Agent Tuning in Domain Expertise [49.83486066403154]
textscMimirは、パーソナライズされたエージェントチューニングのためのカスタマイズ可能なパイプラインを提供する、合理化されたプラットフォームである。
textscMimirは、同じ入力から一般的な命令チューニングデータセットの生成をサポートする。
textscMimirはこれらの機能を統合されたエンドツーエンドプラットフォームに統合し、パーソナライズされたファイルのアップロードからワンクリックエージェントの微調整まで、あらゆることを容易にする。
論文 参考訳(メタデータ) (2024-04-03T23:42:38Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z) - AllTogether: Investigating the Efficacy of Spliced Prompt for Web
Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-10-20T11:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。