論文の概要: Search Beyond Queries: Training Smaller Language Models for Web Interactions via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.10887v1
- Date: Tue, 16 Apr 2024 20:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 18:02:19.142128
- Title: Search Beyond Queries: Training Smaller Language Models for Web Interactions via Reinforcement Learning
- Title(参考訳): クエリを越えた検索:強化学習によるWebインタラクションのためのより小さな言語モデルのトレーニング
- Authors: Moghis Fereidouni, A. B. Siddique,
- Abstract要約: この研究は、GLAINTELと呼ばれる、インテリジェントWebインタラクションのためのグラウンドド言語エージェントを導入している。
GLAINTELは,言語モデリングと強化学習の進歩に基づき,対話型Web環境の検索機能向上におけるトランスフォーマーモデルの有効性について検討した。
この研究は、さまざまなシナリオにまたがるエージェントとして、より小さな言語モデルをトレーニングすることに焦点を当て、トレーニングプロセスにおける人間のデモンストレーションの影響を体系的に評価する。
- 参考スコア(独自算出の注目度): 2.2973978268630852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional search systems focus on query formulation for effective results but face challenges in scenarios such as product searches where crucial product details (e.g., size, color) remain concealed until users visit specific product pages. This highlights the need for intelligent web navigation agents capable of formulating queries and navigating web pages according to users' high-level intents. In response to this need, this work introduces a Grounded Language Agent for Intelligent Web Interactions, called GLAINTEL. Drawing upon advancements in language modeling and reinforcement learning, GLAINTEL investigates the efficacy of transformer-based models in enhancing the search capabilities of interactive web environments. Given the dynamic action space for each state in web navigation, GLAINTEL employs the Flan-T5 architecture and incorporates language modeling and value estimation heads. This work focuses on training smaller language models as agents across various scenarios, systematically evaluating the impact of human demonstrations on the training process. Specifically, we investigate scenarios where no human demonstrations are available and subsequently assess the effective utilization of such demonstrations. We also explore unsupervised domain adaptation for situations where demonstrations are confined to a specific domain. Experimental evaluations across diverse setups demonstrate the effectiveness of training agents in unsupervised settings, outperforming in-context learning-based approaches that employ larger models with up to 540 billion parameters. Surprisingly, behavioral cloning-based methods that straightforwardly use human demonstrations do not outperform unsupervised learning-based methods. Additionally, combining human demonstrations with Reinforcement Learning-based training yields results comparable to models utilizing GPT-4.
- Abstract(参考訳): 従来の検索システムは、効果的な結果のためのクエリの定式化に重点を置いているが、ユーザが特定の製品ページにアクセスするまで、重要な製品の詳細(例えば、サイズ、色)が隠されている製品検索のようなシナリオでは、課題に直面している。
これは、クエリを定式化し、ユーザの高レベルな意図に従ってWebページをナビゲートできるインテリジェントなWebナビゲーションエージェントの必要性を強調している。
このニーズに応えて、この研究はGLAINTELと呼ばれるインテリジェントWebインタラクションのためのグラウンデッド言語エージェントを導入している。
GLAINTELは,言語モデリングと強化学習の進歩に基づき,対話型Web環境の検索機能向上におけるトランスフォーマーモデルの有効性について検討した。
Webナビゲーションにおける各状態の動的アクション空間を考えると、GLAINTELはFlan-T5アーキテクチャを採用し、言語モデリングと値推定ヘッドを組み込んでいる。
この研究は、さまざまなシナリオにまたがるエージェントとして、より小さな言語モデルをトレーニングすることに焦点を当て、トレーニングプロセスにおける人間のデモンストレーションの影響を体系的に評価する。
具体的には,人間による実演が不可能なシナリオについて検討し,その有効利用を検証した。
デモが特定のドメインに限定されている状況に対する教師なしのドメイン適応についても検討する。
多様な設定に対する実験的な評価は、教師なし設定におけるトレーニングエージェントの有効性を示し、最大5400億のパラメータを持つより大きなモデルを使用するコンテキスト内学習ベースのアプローチよりも優れている。
驚くべきことに、人間の実演を直接利用する行動的クローニングベースの手法は、教師なしの学習ベースの手法より優れているわけではない。
さらに、人間によるデモンストレーションと強化学習ベースのトレーニングを組み合わせることで、GPT-4を使用したモデルに匹敵する結果が得られる。
関連論文リスト
- The Impact of Demonstrations on Multilingual In-Context Learning: A Multidimensional Analysis [23.757767581876063]
インコンテキスト学習(In-context learning)は、大規模言語モデルがいくつかのラベル付きデモを使用してタスクを解く一般的な推論戦略である。
実演の有効性は, モデル, タスク, 言語によって大きく異なることを示す。
また,Llama 2-Chat,GPT-3.5,GPT-4といった強力な命令追従モデルは,実演の質にはほとんど敏感でないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T12:53:31Z) - In-context Learning with Retrieved Demonstrations for Language Models: A Survey [23.24271704145876]
インコンテクスト学習者(ICL)は入力コンテキストでのデモを少しだけ行うだけで、新しいタスクに適応できる。
最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。
本稿では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について論じ,比較する。
論文 参考訳(メタデータ) (2024-01-21T23:34:42Z) - Fine-Tune Language Models as Multi-Modal Differential Equation Solvers [14.181842691371935]
本稿では,コンテキスト内演算子の学習をマルチモーダルパラダイムに変換する。
特に,近年の大規模言語モデルの成功からインスピレーションを得て,演算子に関する人間の知識を統合するために「カプセル」の使用を提案する。
論文 参考訳(メタデータ) (2023-08-09T16:44:25Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。