論文の概要: Improve the efficiency of deep reinforcement learning through semantic
exploration guided by natural language
- arxiv url: http://arxiv.org/abs/2309.11753v1
- Date: Thu, 21 Sep 2023 03:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:02:08.451265
- Title: Improve the efficiency of deep reinforcement learning through semantic
exploration guided by natural language
- Title(参考訳): 自然言語による意味探索による深層強化学習の効率化
- Authors: Zhourui Guo, Meng Yao, Yang Yu, Qiyue Yin
- Abstract要約: 本稿では,検索に基づく手法を用いて,神託との対話を選択的かつ効率的に行う方法を提案する。
ニューラルネットワークを用いてエージェントとオラクルの現在の状態を符号化し、コーパスから最も関連性の高い質問を検索してオラクルを問う。
提案手法は,特定のレベルの性能に達するために必要なインタラクション数を削減し,RLの効率を大幅に向上できることを示す。
- 参考スコア(独自算出の注目度): 10.47685316733524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is a powerful technique for learning from trial and
error, but it often requires a large number of interactions to achieve good
performance. In some domains, such as sparse-reward tasks, an oracle that can
provide useful feedback or guidance to the agent during the learning process is
really of great importance. However, querying the oracle too frequently may be
costly or impractical, and the oracle may not always have a clear answer for
every situation. Therefore, we propose a novel method for interacting with the
oracle in a selective and efficient way, using a retrieval-based approach. We
assume that the interaction can be modeled as a sequence of templated questions
and answers, and that there is a large corpus of previous interactions
available. We use a neural network to encode the current state of the agent and
the oracle, and retrieve the most relevant question from the corpus to ask the
oracle. We then use the oracle's answer to update the agent's policy and value
function. We evaluate our method on an object manipulation task. We show that
our method can significantly improve the efficiency of RL by reducing the
number of interactions needed to reach a certain level of performance, compared
to baselines that do not use the oracle or use it in a naive way.
- Abstract(参考訳): 強化学習は試行錯誤から学ぶための強力なテクニックであるが、優れたパフォーマンスを得るためには多数のインタラクションを必要とすることが多い。
スパース・リワードタスクのようないくつかのドメインでは、学習プロセス中にエージェントに有用なフィードバックやガイダンスを提供するオラクルが非常に重要である。
しかし、oracleを頻繁に問い合わせることはコストがかかるかもしれないし、非現実的かもしれないし、oracleは常にあらゆる状況に対して明確な答えを持っているとは限らない。
そこで我々は,検索に基づく手法を用いて,選択的かつ効率的な方法でオラクルと対話するための新しい手法を提案する。
この相互作用はテンプレート化された質問や回答のシーケンスとしてモデル化でき、過去の対話のコーパスが多数存在すると仮定する。
私たちはニューラルネットワークを使ってエージェントとオラクルの現在の状態をエンコードし、コーパスから最も関連する質問を取得してオラクルに質問します。
次に、オラクルの回答を使ってエージェントのポリシーと値関数を更新します。
本手法をオブジェクト操作タスクで評価する。
提案手法は,オラクルを使用しないベースラインやナイーブな方法で使用するベースラインと比較して,一定の性能に達するために必要なインタラクション数を減らすことで,rlの効率を大幅に向上できることを示す。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Oracle problems as communication tasks and optimization of quantum algorithms [0.0]
鍵となる疑問は、アルゴリズムが一定の数のクエリのみを使用して学習タスクをどの程度うまく成功させることができるかである。
本研究では,出力と実値の相互情報を用いたアルゴリズムの性能測定を提案する。
論文 参考訳(メタデータ) (2024-09-23T21:03:39Z) - Is Efficient PAC Learning Possible with an Oracle That Responds 'Yes' or 'No'? [26.334900941196082]
本研究では,与えられたデータセットに対する経験的リスクを最小化する仮説を計算したERMの実行能力が,効率的な学習に必要かどうかを検討する。
バイナリ分類のためのPACの実際の設定において、概念クラスは1ビットしか返さないオラクルを用いて学習可能であることを示す。
また,本研究の結果は,オラクルを少し強化した学習環境や,部分的な概念,マルチクラス,実価値の学習環境にまで及んでいる。
論文 参考訳(メタデータ) (2024-06-17T15:50:08Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。
これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。
この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文 参考訳(メタデータ) (2023-10-20T15:01:55Z) - Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文 参考訳(メタデータ) (2023-10-08T06:18:14Z) - On Efficient Approximate Queries over Machine Learning Models [30.26180913049285]
本稿では,プロキシを活用し,オラクルの使用量を最小限に抑えることで,クエリ応答を近似する新しい統一フレームワークを開発する。
我々のフレームワークは、データサンプルに高価なオラクルを呼び出し、DB内のオブジェクトに安価なプロキシを適用するという、司法的な組み合わせを使用します。
我々のアルゴリズムは最先端のアルゴリズムより優れており、証明可能な統計的保証で高い結果が得られる。
論文 参考訳(メタデータ) (2022-06-06T18:35:19Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - CoDE: Collocation for Demonstration Encoding [31.220899638271856]
デモのためのコロケーション(Collocation for Demonstration)と呼ばれるデータ効率のよい模倣学習手法を提案する。
最適制御におけるコロケーション技術からインスピレーションを得た補助軌道軌道を導入することにより、時間的問題による問題的バックプロパゲーションを回避する。
テーブルトップ操作を効率的に行うための7自由度ロボットマニピュレータ学習行動形成政策の実験について述べる。
論文 参考訳(メタデータ) (2021-05-07T00:34:43Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。