論文の概要: Improve the efficiency of deep reinforcement learning through semantic
exploration guided by natural language
- arxiv url: http://arxiv.org/abs/2309.11753v1
- Date: Thu, 21 Sep 2023 03:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:02:08.451265
- Title: Improve the efficiency of deep reinforcement learning through semantic
exploration guided by natural language
- Title(参考訳): 自然言語による意味探索による深層強化学習の効率化
- Authors: Zhourui Guo, Meng Yao, Yang Yu, Qiyue Yin
- Abstract要約: 本稿では,検索に基づく手法を用いて,神託との対話を選択的かつ効率的に行う方法を提案する。
ニューラルネットワークを用いてエージェントとオラクルの現在の状態を符号化し、コーパスから最も関連性の高い質問を検索してオラクルを問う。
提案手法は,特定のレベルの性能に達するために必要なインタラクション数を削減し,RLの効率を大幅に向上できることを示す。
- 参考スコア(独自算出の注目度): 10.47685316733524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is a powerful technique for learning from trial and
error, but it often requires a large number of interactions to achieve good
performance. In some domains, such as sparse-reward tasks, an oracle that can
provide useful feedback or guidance to the agent during the learning process is
really of great importance. However, querying the oracle too frequently may be
costly or impractical, and the oracle may not always have a clear answer for
every situation. Therefore, we propose a novel method for interacting with the
oracle in a selective and efficient way, using a retrieval-based approach. We
assume that the interaction can be modeled as a sequence of templated questions
and answers, and that there is a large corpus of previous interactions
available. We use a neural network to encode the current state of the agent and
the oracle, and retrieve the most relevant question from the corpus to ask the
oracle. We then use the oracle's answer to update the agent's policy and value
function. We evaluate our method on an object manipulation task. We show that
our method can significantly improve the efficiency of RL by reducing the
number of interactions needed to reach a certain level of performance, compared
to baselines that do not use the oracle or use it in a naive way.
- Abstract(参考訳): 強化学習は試行錯誤から学ぶための強力なテクニックであるが、優れたパフォーマンスを得るためには多数のインタラクションを必要とすることが多い。
スパース・リワードタスクのようないくつかのドメインでは、学習プロセス中にエージェントに有用なフィードバックやガイダンスを提供するオラクルが非常に重要である。
しかし、oracleを頻繁に問い合わせることはコストがかかるかもしれないし、非現実的かもしれないし、oracleは常にあらゆる状況に対して明確な答えを持っているとは限らない。
そこで我々は,検索に基づく手法を用いて,選択的かつ効率的な方法でオラクルと対話するための新しい手法を提案する。
この相互作用はテンプレート化された質問や回答のシーケンスとしてモデル化でき、過去の対話のコーパスが多数存在すると仮定する。
私たちはニューラルネットワークを使ってエージェントとオラクルの現在の状態をエンコードし、コーパスから最も関連する質問を取得してオラクルに質問します。
次に、オラクルの回答を使ってエージェントのポリシーと値関数を更新します。
本手法をオブジェクト操作タスクで評価する。
提案手法は,オラクルを使用しないベースラインやナイーブな方法で使用するベースラインと比較して,一定の性能に達するために必要なインタラクション数を減らすことで,rlの効率を大幅に向上できることを示す。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。
これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。
この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文 参考訳(メタデータ) (2023-10-20T15:01:55Z) - Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文 参考訳(メタデータ) (2023-10-08T06:18:14Z) - Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled
Datasets [73.2096288987301]
オフラインでラベル付けされていないデータセットから、少量のダウンストリーム専門家データを用いて、関連する振る舞いを選択的にクエリする簡単なアプローチを提案する。
提案手法では,タスクへの関連する遷移のみを問合せし,サブ最適データやタスク非関連データをフィルタリングする。
我々の単純なクエリ手法は、画像からシミュレーションされた実際のロボット操作タスクに対して、より複雑な目標条件の手法よりも20%優れています。
論文 参考訳(メタデータ) (2023-04-18T05:42:53Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - On Efficient Approximate Queries over Machine Learning Models [30.26180913049285]
本稿では,プロキシを活用し,オラクルの使用量を最小限に抑えることで,クエリ応答を近似する新しい統一フレームワークを開発する。
我々のフレームワークは、データサンプルに高価なオラクルを呼び出し、DB内のオブジェクトに安価なプロキシを適用するという、司法的な組み合わせを使用します。
我々のアルゴリズムは最先端のアルゴリズムより優れており、証明可能な統計的保証で高い結果が得られる。
論文 参考訳(メタデータ) (2022-06-06T18:35:19Z) - What Does The User Want? Information Gain for Hierarchical Dialogue
Policy Optimisation [3.1433893853959605]
強化学習(RL)による最適化は、非効率性と不安定性のサンプリングに影響を受けやすい。
本稿では,この問題に対処するための情報ゲインに基づく本質的な報酬の利用を提案する。
FeudalGainと呼ばれる我々のアルゴリズムは、PyDialフレームワークのほとんどの環境で最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-15T07:21:26Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - CoDE: Collocation for Demonstration Encoding [31.220899638271856]
デモのためのコロケーション(Collocation for Demonstration)と呼ばれるデータ効率のよい模倣学習手法を提案する。
最適制御におけるコロケーション技術からインスピレーションを得た補助軌道軌道を導入することにより、時間的問題による問題的バックプロパゲーションを回避する。
テーブルトップ操作を効率的に行うための7自由度ロボットマニピュレータ学習行動形成政策の実験について述べる。
論文 参考訳(メタデータ) (2021-05-07T00:34:43Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。