Fugu-MT 論文翻訳(概要): Search Beyond Queries: Training Smaller Language Models for Web Interactions via Reinforcement Learning

論文の概要: Search Beyond Queries: Training Smaller Language Models for Web Interactions via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2404.10887v1
Date: Tue, 16 Apr 2024 20:15:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 18:02:19.142128
Title: Search Beyond Queries: Training Smaller Language Models for Web Interactions via Reinforcement Learning
Title（参考訳）: クエリを越えた検索:強化学習によるWebインタラクションのためのより小さな言語モデルのトレーニング
Authors: Moghis Fereidouni, A. B. Siddique,
Abstract要約: この研究は、GLAINTELと呼ばれる、インテリジェントWebインタラクションのためのグラウンドド言語エージェントを導入している。 GLAINTELは,言語モデリングと強化学習の進歩に基づき,対話型Web環境の検索機能向上におけるトランスフォーマーモデルの有効性について検討した。この研究は、さまざまなシナリオにまたがるエージェントとして、より小さな言語モデルをトレーニングすることに焦点を当て、トレーニングプロセスにおける人間のデモンストレーションの影響を体系的に評価する。
参考スコア（独自算出の注目度）: 2.2973978268630852
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditional search systems focus on query formulation for effective results but face challenges in scenarios such as product searches where crucial product details (e.g., size, color) remain concealed until users visit specific product pages. This highlights the need for intelligent web navigation agents capable of formulating queries and navigating web pages according to users' high-level intents. In response to this need, this work introduces a Grounded Language Agent for Intelligent Web Interactions, called GLAINTEL. Drawing upon advancements in language modeling and reinforcement learning, GLAINTEL investigates the efficacy of transformer-based models in enhancing the search capabilities of interactive web environments. Given the dynamic action space for each state in web navigation, GLAINTEL employs the Flan-T5 architecture and incorporates language modeling and value estimation heads. This work focuses on training smaller language models as agents across various scenarios, systematically evaluating the impact of human demonstrations on the training process. Specifically, we investigate scenarios where no human demonstrations are available and subsequently assess the effective utilization of such demonstrations. We also explore unsupervised domain adaptation for situations where demonstrations are confined to a specific domain. Experimental evaluations across diverse setups demonstrate the effectiveness of training agents in unsupervised settings, outperforming in-context learning-based approaches that employ larger models with up to 540 billion parameters. Surprisingly, behavioral cloning-based methods that straightforwardly use human demonstrations do not outperform unsupervised learning-based methods. Additionally, combining human demonstrations with Reinforcement Learning-based training yields results comparable to models utilizing GPT-4.
Abstract（参考訳）: 従来の検索システムは、効果的な結果のためのクエリの定式化に重点を置いているが、ユーザが特定の製品ページにアクセスするまで、重要な製品の詳細(例えば、サイズ、色)が隠されている製品検索のようなシナリオでは、課題に直面している。これは、クエリを定式化し、ユーザの高レベルな意図に従ってWebページをナビゲートできるインテリジェントなWebナビゲーションエージェントの必要性を強調している。このニーズに応えて、この研究はGLAINTELと呼ばれるインテリジェントWebインタラクションのためのグラウンデッド言語エージェントを導入している。 GLAINTELは,言語モデリングと強化学習の進歩に基づき,対話型Web環境の検索機能向上におけるトランスフォーマーモデルの有効性について検討した。 Webナビゲーションにおける各状態の動的アクション空間を考えると、GLAINTELはFlan-T5アーキテクチャを採用し、言語モデリングと値推定ヘッドを組み込んでいる。この研究は、さまざまなシナリオにまたがるエージェントとして、より小さな言語モデルをトレーニングすることに焦点を当て、トレーニングプロセスにおける人間のデモンストレーションの影響を体系的に評価する。具体的には,人間による実演が不可能なシナリオについて検討し,その有効利用を検証した。デモが特定のドメインに限定されている状況に対する教師なしのドメイン適応についても検討する。多様な設定に対する実験的な評価は、教師なし設定におけるトレーニングエージェントの有効性を示し、最大5400億のパラメータを持つより大きなモデルを使用するコンテキスト内学習ベースのアプローチよりも優れている。驚くべきことに、人間の実演を直接利用する行動的クローニングベースの手法は、教師なしの学習ベースの手法より優れているわけではない。さらに、人間によるデモンストレーションと強化学習ベースのトレーニングを組み合わせることで、GPT-4を使用したモデルに匹敵する結果が得られる。

関連論文リスト

Learning Adaptive Dexterous Grasping from Single Demonstrations [27.806856958659054]
この作業は、2つの重要な課題に対処する。人間による限られたデモンストレーションから、効率的なスキル獲得と、コンテキスト駆動のスキル選択だ。 AdaDexGraspは、スキルごとに1人の人間のデモからスキルを把握できるライブラリを学び、視覚言語モデル(VLM)を使用して最も適切なものを選択する。我々はAdaDexGraspをシミュレーションと実世界の両方の環境で評価し、RLの効率を大幅に改善し、さまざまなオブジェクト構成をまたいだ人間的な把握戦略の学習を可能にした。
論文参考訳（メタデータ） (2025-03-26T04:05:50Z)
Imitation Learning from Suboptimal Demonstrations via Meta-Learning An Action Ranker [9.6508237676589]
模倣学習における大きなボトルネックは、多数の専門家によるデモンストレーションの要求である。メタラーニング・アクション・ローダ(ILMAR)による模倣学習という新しい手法を提案する。 ILMARは、限定された専門家によるデモンストレーションと補足的なデモに重み付けされた行動クローニング(BC)を実装している。
論文参考訳（メタデータ） (2024-12-28T16:06:44Z)
From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。 GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文参考訳（メタデータ） (2024-12-11T15:06:25Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
The Impact of Demonstrations on Multilingual In-Context Learning: A Multidimensional Analysis [23.757767581876063]
インコンテキスト学習(In-context learning)は、大規模言語モデルがいくつかのラベル付きデモを使用してタスクを解く一般的な推論戦略である。実演の有効性は, モデル, タスク, 言語によって大きく異なることを示す。また,Llama 2-Chat,GPT-3.5,GPT-4といった強力な命令追従モデルは,実演の質にはほとんど敏感でないことがわかった。
論文参考訳（メタデータ） (2024-02-20T12:53:31Z)
In-context Learning with Retrieved Demonstrations for Language Models: A Survey [23.24271704145876]
インコンテクスト学習者(ICL)は入力コンテキストでのデモを少しだけ行うだけで、新しいタスクに適応できる。最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。本稿では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について論じ,比較する。
論文参考訳（メタデータ） (2024-01-21T23:34:42Z)
Accelerating Reinforcement Learning of Robotic Manipulations via Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。 RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。学習効率と成功率の両方でベースラインを上回ります。
論文参考訳（メタデータ） (2023-11-04T11:21:38Z)
Fine-Tune Language Models as Multi-Modal Differential Equation Solvers [14.181842691371935]
本稿では,コンテキスト内演算子の学習をマルチモーダルパラダイムに変換する。特に,近年の大規模言語モデルの成功からインスピレーションを得て,演算子に関する人間の知識を統合するために「カプセル」の使用を提案する。
論文参考訳（メタデータ） (2023-08-09T16:44:25Z)
Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文参考訳（メタデータ） (2023-07-18T22:37:30Z)
SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-15T08:33:08Z)
Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。 LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文参考訳（メタデータ） (2023-06-26T10:26:33Z)
Adaptive action supervision in reinforcement learning from real-world multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文参考訳（メタデータ） (2023-05-22T13:33:37Z)
Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文参考訳（メタデータ） (2023-05-19T17:44:34Z)
Foundation Models for Decision Making: Problems, Methods, and Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文参考訳（メタデータ） (2023-03-07T18:44:07Z)
Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文参考訳（メタデータ） (2022-06-08T14:48:06Z)
Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2021-07-16T00:15:18Z)
GAN-Based Interactive Reinforcement Learning from Demonstration and Human Evaluative Feedback [6.367592686247906]
本稿では,実演と人的評価フィードバックからganベースインタラクティブ強化学習(gairl)を提案する。提案手法を6つの物理制御タスクで検証した。
論文参考訳（メタデータ） (2021-04-14T02:58:51Z)
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。 Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文参考訳（メタデータ） (2021-02-24T21:12:09Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。