論文の概要: Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents
- arxiv url: http://arxiv.org/abs/2410.22552v1
- Date: Tue, 29 Oct 2024 21:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:18.118735
- Title: Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents
- Title(参考訳): 自動インテント:大規模言語モデルWebエージェントのための自動インテント発見と自己探索
- Authors: Jaekyeom Kim, Dong-Ki Kim, Lajanugen Logeswaran, Sungryull Sohn, Honglak Lee,
- Abstract要約: 本稿では,事前訓練された大規模言語モデル(LLM)を,直接微調整なしで対象ドメインのエージェントとして適用する手法であるAuto-Intentを紹介する。
提案手法はまず,対象領域の実証から意図を教師なしで発見する。
我々は、エージェントの過去の観察と行動から次の意図を予測するために、意図予測器を訓練する。
- 参考スコア(独自算出の注目度): 68.22496852535937
- License:
- Abstract: In this paper, we introduce Auto-Intent, a method to adapt a pre-trained large language model (LLM) as an agent for a target domain without direct fine-tuning, where we empirically focus on web navigation tasks. Our approach first discovers the underlying intents from target domain demonstrations unsupervisedly, in a highly compact form (up to three words). With the extracted intents, we train our intent predictor to predict the next intent given the agent's past observations and actions. In particular, we propose a self-exploration approach where top-k probable intent predictions are provided as a hint to the pre-trained LLM agent, which leads to enhanced decision-making capabilities. Auto-Intent substantially improves the performance of GPT-{3.5, 4} and Llama-3.1-{70B, 405B} agents on the large-scale real-website navigation benchmarks from Mind2Web and online navigation tasks from WebArena with its cross-benchmark generalization from Mind2Web.
- Abstract(参考訳): 本稿では,事前訓練された大規模言語モデル(LLM)を,直接微調整なしでターゲットドメインのエージェントとして適用する手法であるAuto-Intentを紹介する。
提案手法はまず,対象領域の実証から,高度にコンパクトな形式(最大3語)で,教師なしの意図を発見する。
抽出された意図を用いて、エージェントの過去の観察と行動から次の意図を予測するために、意図予測器を訓練する。
特に,事前学習されたLLMエージェントのヒントとして,トップkの確率的意図予測が提供され,意思決定能力の向上につながる自己探索手法を提案する。
Auto-Intentは、Mind2Webの大規模実WebサイトナビゲーションベンチマークとWebArenaのオンラインナビゲーションタスクにおいて、GPT-{3.5, 4}とLlama-3.1-{70B, 405B}エージェントのパフォーマンスを大幅に改善する。
関連論文リスト
- Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents [64.75036903373712]
Proposer-Agent-Evaluatorは、基礎モデルエージェントが野生のスキルを自律的に発見し、実践することを可能にする学習システムである。
PAEの中心となるタスクプロポーサは、エージェントがコンテキスト情報で実践するためのタスクを自律的に提案するコンテキスト対応タスクプロポーサである。
成功評価は、エージェントがRLを介してポリシーを洗練するための報酬信号として機能する。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - WEPO: Web Element Preference Optimization for LLM-based Web Navigation [3.9400326648635566]
本稿では、WEPO(Web Element Preference Optimization)と呼ばれるWebナビゲーションタスクに対する新しいアプローチを提案する。
距離に基づく非定常Web要素を負のサンプルとしてサンプリングし、直接選好最適化(DPO)における最大極大目標を最適化することにより、教師なしの選好学習を利用する。
その結果,WebAgentよりも13.8%,ビジュアル言語モデルであるCogAgentよりも5.3%向上した。
論文 参考訳(メタデータ) (2024-12-14T08:25:28Z) - SmartAgent: Chain-of-User-Thought for Embodied Personalized Agent in Cyber World [50.937342998351426]
COUT(Chain-of-User-Thought)は、新しい推論パラダイムである。
我々は、サイバー環境を認識し、パーソナライズされた要求を推論するエージェントフレームワークであるSmartAgentを紹介する。
我々の研究は、まずCOUTプロセスを定式化し、パーソナライズされたエージェント学習を具体化するための予備的な試みとして役立ちます。
論文 参考訳(メタデータ) (2024-12-10T12:40:35Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。
WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。
自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文 参考訳(メタデータ) (2024-05-30T17:52:36Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。