論文の概要: Navigating WebAI: Training Agents to Complete Web Tasks with Large Language Models and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.00516v1
- Date: Wed, 1 May 2024 13:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 15:37:50.371115
- Title: Navigating WebAI: Training Agents to Complete Web Tasks with Large Language Models and Reinforcement Learning
- Title(参考訳): WebAIのナビゲーション: 大規模言語モデルと強化学習によるWebタスク完成のためのエージェントの訓練
- Authors: Lucas-Andreï Thil, Mirela Popa, Gerasimos Spanakis,
- Abstract要約: スーパーバイザード・ラーニング(SL)アプローチは,従来の手法に比べてトレーニングデータが少なく,優れたパフォーマンスを実現している。
SLとRLの手法をMiniWoBベンチマーク上で組み合わせ,両手法の強みを利用する手法を提案する。
実験により,従来のSL手法よりも少ないデータ量で性能を向上し,RLモデルと性能ギャップを狭めることを示した。
- 参考スコア(独自算出の注目度): 6.404122934568861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in language models have demonstrated remarkable improvements in various natural language processing (NLP) tasks such as web navigation. Supervised learning (SL) approaches have achieved impressive performance while utilizing significantly less training data compared to previous methods. However, these SL-based models fall short when compared to reinforcement learning (RL) approaches, which have shown superior results. In this paper, we propose a novel approach that combines SL and RL techniques over the MiniWoB benchmark to leverage the strengths of both methods. We also address a critical limitation in previous models' understanding of HTML content, revealing a tendency to memorize target elements rather than comprehend the underlying structure. To rectify this, we propose methods to enhance true understanding and present a new baseline of results. Our experiments demonstrate that our approach outperforms previous SL methods on certain tasks using less data and narrows the performance gap with RL models, achieving 43.58\% average accuracy in SL and 36.69\% when combined with a multimodal RL approach. This study sets a new direction for future web navigation and offers insights into the limitations and potential of language modeling for computer tasks.
- Abstract(参考訳): 言語モデルの最近の進歩は、Webナビゲーションのような様々な自然言語処理(NLP)タスクにおいて顕著に改善されている。
スーパーバイザード・ラーニング(SL)アプローチは,従来の手法に比べてトレーニングデータが少なく,優れたパフォーマンスを実現している。
しかし、これらのSLモデルでは、強化学習(RL)アプローチと比較して、より優れた結果が得られている。
本論文では, SLとRLの手法をMiniWoBベンチマークに組み合わせ, 両手法の強みを利用する手法を提案する。
また,従来のモデルによるHTMLコンテンツ理解の限界にも対処し,その基盤となる構造を理解するのではなく,対象要素を記憶する傾向を明らかにした。
そこで本研究では, 真の理解を深め, 結果の新たなベースラインを提示する手法を提案する。
実験により, 従来のSL法よりも少ないデータ量で性能差を小さくし, SLの平均精度が43.58倍, マルチモーダルRL法が36.69倍となることを示した。
本研究では,今後のWebナビゲーションの方向性を定め,コンピュータタスクにおける言語モデリングの限界と可能性について考察する。
関連論文リスト
- Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
モデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。
これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文 参考訳(メタデータ) (2024-09-07T13:57:41Z) - TaSL: Task Skill Localization and Consolidation for Language Model Continual Learning [41.28933724210434]
言語モデル継続学習(CL)は、大規模な言語モデル(LLM)を、リトレーニングなしで動的現実のシナリオに適応できる能力に対して、近年大きな関心を集めている。
既存のアプローチでは、複数のパラメータ効率の細かい調整(PEFT)ブロックを使用してタスク固有の知識を取得するが、これらの手法は非効率であり、タスク間の潜在的な知識伝達を利用できない。
本稿では,タスクスキルのローカライゼーションと統合(TaSL)という,言語モデルのための新しいCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-09T17:44:45Z) - Augmentations vs Algorithms: What Works in Self-Supervised Learning [9.194402355758164]
自己監督学習(SSL)におけるデータ強化,事前学習アルゴリズム,モデルアーキテクチャの相対効果について検討する。
異なるSSLメソッドを単一の共有テンプレートに統合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-08T23:42:06Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。