論文の概要: Search Beyond Queries: Training Smaller Language Models for Web Interactions via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.10887v1
- Date: Tue, 16 Apr 2024 20:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 18:02:19.142128
- Title: Search Beyond Queries: Training Smaller Language Models for Web Interactions via Reinforcement Learning
- Title(参考訳): クエリを越えた検索:強化学習によるWebインタラクションのためのより小さな言語モデルのトレーニング
- Authors: Moghis Fereidouni, A. B. Siddique,
- Abstract要約: この研究は、GLAINTELと呼ばれる、インテリジェントWebインタラクションのためのグラウンドド言語エージェントを導入している。
GLAINTELは,言語モデリングと強化学習の進歩に基づき,対話型Web環境の検索機能向上におけるトランスフォーマーモデルの有効性について検討した。
この研究は、さまざまなシナリオにまたがるエージェントとして、より小さな言語モデルをトレーニングすることに焦点を当て、トレーニングプロセスにおける人間のデモンストレーションの影響を体系的に評価する。
- 参考スコア(独自算出の注目度): 2.2973978268630852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional search systems focus on query formulation for effective results but face challenges in scenarios such as product searches where crucial product details (e.g., size, color) remain concealed until users visit specific product pages. This highlights the need for intelligent web navigation agents capable of formulating queries and navigating web pages according to users' high-level intents. In response to this need, this work introduces a Grounded Language Agent for Intelligent Web Interactions, called GLAINTEL. Drawing upon advancements in language modeling and reinforcement learning, GLAINTEL investigates the efficacy of transformer-based models in enhancing the search capabilities of interactive web environments. Given the dynamic action space for each state in web navigation, GLAINTEL employs the Flan-T5 architecture and incorporates language modeling and value estimation heads. This work focuses on training smaller language models as agents across various scenarios, systematically evaluating the impact of human demonstrations on the training process. Specifically, we investigate scenarios where no human demonstrations are available and subsequently assess the effective utilization of such demonstrations. We also explore unsupervised domain adaptation for situations where demonstrations are confined to a specific domain. Experimental evaluations across diverse setups demonstrate the effectiveness of training agents in unsupervised settings, outperforming in-context learning-based approaches that employ larger models with up to 540 billion parameters. Surprisingly, behavioral cloning-based methods that straightforwardly use human demonstrations do not outperform unsupervised learning-based methods. Additionally, combining human demonstrations with Reinforcement Learning-based training yields results comparable to models utilizing GPT-4.
- Abstract(参考訳): 従来の検索システムは、効果的な結果のためのクエリの定式化に重点を置いているが、ユーザが特定の製品ページにアクセスするまで、重要な製品の詳細(例えば、サイズ、色)が隠されている製品検索のようなシナリオでは、課題に直面している。
これは、クエリを定式化し、ユーザの高レベルな意図に従ってWebページをナビゲートできるインテリジェントなWebナビゲーションエージェントの必要性を強調している。
このニーズに応えて、この研究はGLAINTELと呼ばれるインテリジェントWebインタラクションのためのグラウンデッド言語エージェントを導入している。
GLAINTELは,言語モデリングと強化学習の進歩に基づき,対話型Web環境の検索機能向上におけるトランスフォーマーモデルの有効性について検討した。
Webナビゲーションにおける各状態の動的アクション空間を考えると、GLAINTELはFlan-T5アーキテクチャを採用し、言語モデリングと値推定ヘッドを組み込んでいる。
この研究は、さまざまなシナリオにまたがるエージェントとして、より小さな言語モデルをトレーニングすることに焦点を当て、トレーニングプロセスにおける人間のデモンストレーションの影響を体系的に評価する。
具体的には,人間による実演が不可能なシナリオについて検討し,その有効利用を検証した。
デモが特定のドメインに限定されている状況に対する教師なしのドメイン適応についても検討する。
多様な設定に対する実験的な評価は、教師なし設定におけるトレーニングエージェントの有効性を示し、最大5400億のパラメータを持つより大きなモデルを使用するコンテキスト内学習ベースのアプローチよりも優れている。
驚くべきことに、人間の実演を直接利用する行動的クローニングベースの手法は、教師なしの学習ベースの手法より優れているわけではない。
さらに、人間によるデモンストレーションと強化学習ベースのトレーニングを組み合わせることで、GPT-4を使用したモデルに匹敵する結果が得られる。
関連論文リスト
- Imitation Learning from Suboptimal Demonstrations via Meta-Learning An Action Ranker [9.6508237676589]
模倣学習における大きなボトルネックは、多数の専門家によるデモンストレーションの要求である。
メタラーニング・アクション・ローダ(ILMAR)による模倣学習という新しい手法を提案する。
ILMARは、限定された専門家によるデモンストレーションと補足的なデモに重み付けされた行動クローニング(BC)を実装している。
論文 参考訳(メタデータ) (2024-12-28T16:06:44Z) - From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文 参考訳(メタデータ) (2024-12-11T15:06:25Z) - GROOT-2: Weakly Supervised Multi-Modal Instruction Following Agents [25.195426389757355]
GROOT-2は、弱い監督と潜在変数モデルを組み合わせた新しいアプローチを用いて訓練されたマルチモーダルエージェントである。
GROOT-2の有効性は、ビデオゲームからロボット操作まで、四つの異なる環境で検証されている。
論文 参考訳(メタデータ) (2024-12-07T05:47:49Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - The Impact of Demonstrations on Multilingual In-Context Learning: A Multidimensional Analysis [23.757767581876063]
インコンテキスト学習(In-context learning)は、大規模言語モデルがいくつかのラベル付きデモを使用してタスクを解く一般的な推論戦略である。
実演の有効性は, モデル, タスク, 言語によって大きく異なることを示す。
また,Llama 2-Chat,GPT-3.5,GPT-4といった強力な命令追従モデルは,実演の質にはほとんど敏感でないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T12:53:31Z) - Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z) - GAN-Based Interactive Reinforcement Learning from Demonstration and
Human Evaluative Feedback [6.367592686247906]
本稿では,実演と人的評価フィードバックからganベースインタラクティブ強化学習(gairl)を提案する。
提案手法を6つの物理制御タスクで検証した。
論文 参考訳(メタデータ) (2021-04-14T02:58:51Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。