論文の概要: Grounded Language Agent for Product Search via Intelligent Web Interactions
- arxiv url: http://arxiv.org/abs/2404.10887v2
- Date: Sun, 26 Jan 2025 19:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:51:29.865356
- Title: Grounded Language Agent for Product Search via Intelligent Web Interactions
- Title(参考訳): インテリジェントWebインタラクションによる製品検索のための接地言語エージェント
- Authors: Moghis Fereidouni, Adib Mosharrof, A. B. Siddique,
- Abstract要約: 本稿では,GLAINTELという,知的Webインタラクションのための接地言語エージェントを紹介する。
人間の実演なしで学ぶことの難しさと、人間の実演が利用可能になったときに効果的に活用する機会の両方に取り組みます。
人間の実演と強化学習に基づく訓練を組み合わせることで、GPT-4の手法に匹敵する結果が得られることを示す。
- 参考スコア(独自算出の注目度): 2.453775887722866
- License:
- Abstract: The development of agents powered by large language models (LLMs) to accomplish complex high-level user intents, has attracted significant attention recently. However, employing LLMs with billions of parameters (e.g., GPT-4) may incur substantial costs on top of handcrafting extensive prompts. To address this, we introduce a Grounded Language Agent for Intelligent Web Interactions, named GLAINTEL. GLAINTEL employs Flan-T5 as its backbone and is flexible in training in various settings: unsupervised learning, supervised learning, and unsupervised domain adaptation. Specifically, we tackle both the challenge of learning without human demonstrations and the opportunity to leverage human demonstrations effectively when those are available. Additionally, we explore unsupervised domain adaptation for cases where demonstrations are limited to a specific domain. Experimental evaluations across diverse setups demonstrate the effectiveness of GLAINTEL in unsupervised settings, outperforming in-context learning-based approaches that employ larger models with up to 540 billion parameters. Surprisingly, behavioral cloning-based methods that straightforwardly use human demonstrations do not outperform unsupervised variants of GLAINTEL. Additionally, we show that combining human demonstrations with reinforcement learning-based training yields results comparable to methods utilizing GPT-4. The code is available at: https://github.com/MultifacetedNLP/WebAgents-Unsupervised.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)を利用した複雑な高レベルのユーザ意図を実現するエージェントの開発が注目されている。
しかし、数十億のパラメータ(例えば GPT-4 など)を持つ LLM を用いると、手作りの広範囲なプロンプトの上にかなりのコストがかかる可能性がある。
そこで我々は,GLAINTELという,知的Webインタラクションのための接地言語エージェントを提案する。
GLAINTELはFlan-T5をバックボーンとして採用しており、教師なし学習、教師なし学習、教師なしドメイン適応といった様々な環境でのトレーニングに柔軟である。
具体的には、人間の実演なしで学ぶことの課題と、人間の実演が利用可能になったときに効果的に活用する機会の両方に取り組む。
さらに,実演が特定の領域に限定されている場合の教師なし領域適応についても検討する。
多様な設定に対する実験的な評価は、教師なし設定におけるGLAINTELの有効性を示し、最大5400億のパラメータを持つより大きなモデルを使用するコンテキスト内学習ベースのアプローチよりも優れている。
驚くべきことに、人間のデモを直接利用する行動的クローニングベースの手法は、GLAINTELの教師なしの変種よりも優れているわけではない。
さらに,人間による実演と強化学習に基づくトレーニングを組み合わせることで,GPT-4を用いた手法に匹敵する結果が得られることを示す。
コードはhttps://github.com/MultifacetedNLP/WebAgents-Unsupervisedで公開されている。
関連論文リスト
- Imitation Learning from Suboptimal Demonstrations via Meta-Learning An Action Ranker [9.6508237676589]
模倣学習における大きなボトルネックは、多数の専門家によるデモンストレーションの要求である。
メタラーニング・アクション・ローダ(ILMAR)による模倣学習という新しい手法を提案する。
ILMARは、限定された専門家によるデモンストレーションと補足的なデモに重み付けされた行動クローニング(BC)を実装している。
論文 参考訳(メタデータ) (2024-12-28T16:06:44Z) - From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文 参考訳(メタデータ) (2024-12-11T15:06:25Z) - GROOT-2: Weakly Supervised Multi-Modal Instruction Following Agents [25.195426389757355]
GROOT-2は、弱い監督と潜在変数モデルを組み合わせた新しいアプローチを用いて訓練されたマルチモーダルエージェントである。
GROOT-2の有効性は、ビデオゲームからロボット操作まで、四つの異なる環境で検証されている。
論文 参考訳(メタデータ) (2024-12-07T05:47:49Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - The Impact of Demonstrations on Multilingual In-Context Learning: A Multidimensional Analysis [23.757767581876063]
インコンテキスト学習(In-context learning)は、大規模言語モデルがいくつかのラベル付きデモを使用してタスクを解く一般的な推論戦略である。
実演の有効性は, モデル, タスク, 言語によって大きく異なることを示す。
また,Llama 2-Chat,GPT-3.5,GPT-4といった強力な命令追従モデルは,実演の質にはほとんど敏感でないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T12:53:31Z) - Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z) - GAN-Based Interactive Reinforcement Learning from Demonstration and
Human Evaluative Feedback [6.367592686247906]
本稿では,実演と人的評価フィードバックからganベースインタラクティブ強化学習(gairl)を提案する。
提案手法を6つの物理制御タスクで検証した。
論文 参考訳(メタデータ) (2021-04-14T02:58:51Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。