Fugu-MT 論文翻訳(概要): Improve the efficiency of deep reinforcement learning through semantic exploration guided by natural language

論文の概要: Improve the efficiency of deep reinforcement learning through semantic exploration guided by natural language

arxiv url: http://arxiv.org/abs/2309.11753v1
Date: Thu, 21 Sep 2023 03:25:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 17:02:08.451265
Title: Improve the efficiency of deep reinforcement learning through semantic exploration guided by natural language
Title（参考訳）: 自然言語による意味探索による深層強化学習の効率化
Authors: Zhourui Guo, Meng Yao, Yang Yu, Qiyue Yin
Abstract要約: 本稿では,検索に基づく手法を用いて,神託との対話を選択的かつ効率的に行う方法を提案する。ニューラルネットワークを用いてエージェントとオラクルの現在の状態を符号化し、コーパスから最も関連性の高い質問を検索してオラクルを問う。提案手法は,特定のレベルの性能に達するために必要なインタラクション数を削減し,RLの効率を大幅に向上できることを示す。
参考スコア（独自算出の注目度）: 10.47685316733524
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning is a powerful technique for learning from trial and error, but it often requires a large number of interactions to achieve good performance. In some domains, such as sparse-reward tasks, an oracle that can provide useful feedback or guidance to the agent during the learning process is really of great importance. However, querying the oracle too frequently may be costly or impractical, and the oracle may not always have a clear answer for every situation. Therefore, we propose a novel method for interacting with the oracle in a selective and efficient way, using a retrieval-based approach. We assume that the interaction can be modeled as a sequence of templated questions and answers, and that there is a large corpus of previous interactions available. We use a neural network to encode the current state of the agent and the oracle, and retrieve the most relevant question from the corpus to ask the oracle. We then use the oracle's answer to update the agent's policy and value function. We evaluate our method on an object manipulation task. We show that our method can significantly improve the efficiency of RL by reducing the number of interactions needed to reach a certain level of performance, compared to baselines that do not use the oracle or use it in a naive way.
Abstract（参考訳）: 強化学習は試行錯誤から学ぶための強力なテクニックであるが、優れたパフォーマンスを得るためには多数のインタラクションを必要とすることが多い。スパース・リワードタスクのようないくつかのドメインでは、学習プロセス中にエージェントに有用なフィードバックやガイダンスを提供するオラクルが非常に重要である。しかし、oracleを頻繁に問い合わせることはコストがかかるかもしれないし、非現実的かもしれないし、oracleは常にあらゆる状況に対して明確な答えを持っているとは限らない。そこで我々は,検索に基づく手法を用いて,選択的かつ効率的な方法でオラクルと対話するための新しい手法を提案する。この相互作用はテンプレート化された質問や回答のシーケンスとしてモデル化でき、過去の対話のコーパスが多数存在すると仮定する。私たちはニューラルネットワークを使ってエージェントとオラクルの現在の状態をエンコードし、コーパスから最も関連する質問を取得してオラクルに質問します。次に、オラクルの回答を使ってエージェントのポリシーと値関数を更新します。本手法をオブジェクト操作タスクで評価する。提案手法は,オラクルを使用しないベースラインやナイーブな方法で使用するベースラインと比較して,一定の性能に達するために必要なインタラクション数を減らすことで,rlの効率を大幅に向上できることを示す。

関連論文リスト

Learning Pivoting Manipulation with Force and Vision Feedback Using Optimization-based Demonstrations [20.20969802675097]
クローズドループのピボット操作を学習するためのフレームワークを提案する。計算効率のよい接触型軌道最適化を利用して,実演指導による深層強化学習を設計する。また、特権訓練戦略を用いて、ロボットがピボット操作を行うことができるシミュレート・トゥ・リアル・トランスファー手法を提案する。
論文参考訳（メタデータ） (2025-08-01T21:33:46Z)
Necessary and Sufficient Oracles: Toward a Computational Taxonomy For Reinforcement Learning [28.184175745050474]
本稿では,教師付き学習オラクルの選択が強化学習アルゴリズムの計算複雑性に与える影響について検討する。まず、標準的なエピソード・アクセス・モデルにおいて、2コンテキスト回帰を最小のオラクルとみなす。第二に、より強いリセットアクセスモデルにおいて、一文回帰を最小に近いオラクルとみなす。第3に、我々はLow-Rank MDPに焦点を絞り、Block MDP設定の類似のオラクルが不十分であることを示す暗号的証拠を与えます。
論文参考訳（メタデータ） (2025-02-12T18:47:13Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Oracle problems as communication tasks and optimization of quantum algorithms [0.0]
鍵となる疑問は、アルゴリズムが一定の数のクエリのみを使用して学習タスクをどの程度うまく成功させることができるかである。本研究では,出力と実値の相互情報を用いたアルゴリズムの性能測定を提案する。
論文参考訳（メタデータ） (2024-09-23T21:03:39Z)
Is Efficient PAC Learning Possible with an Oracle That Responds 'Yes' or 'No'? [26.334900941196082]
本研究では,与えられたデータセットに対する経験的リスクを最小化する仮説を計算したERMの実行能力が,効率的な学習に必要かどうかを検討する。バイナリ分類のためのPACの実際の設定において、概念クラスは1ビットしか返さないオラクルを用いて学習可能であることを示す。また,本研究の結果は,オラクルを少し強化した学習環境や,部分的な概念,マルチクラス,実価値の学習環境にまで及んでいる。
論文参考訳（メタデータ） (2024-06-17T15:50:08Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文参考訳（メタデータ） (2023-10-20T15:01:55Z)
Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文参考訳（メタデータ） (2023-10-08T06:18:14Z)
Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets [73.2096288987301]
オフラインでラベル付けされていないデータセットから、少量のダウンストリーム専門家データを用いて、関連する振る舞いを選択的にクエリする簡単なアプローチを提案する。提案手法では,タスクへの関連する遷移のみを問合せし,サブ最適データやタスク非関連データをフィルタリングする。我々の単純なクエリ手法は、画像からシミュレーションされた実際のロボット操作タスクに対して、より複雑な目標条件の手法よりも20%優れています。
論文参考訳（メタデータ） (2023-04-18T05:42:53Z)
On Efficient Approximate Queries over Machine Learning Models [30.26180913049285]
本稿では,プロキシを活用し,オラクルの使用量を最小限に抑えることで,クエリ応答を近似する新しい統一フレームワークを開発する。我々のフレームワークは、データサンプルに高価なオラクルを呼び出し、DB内のオブジェクトに安価なプロキシを適用するという、司法的な組み合わせを使用します。我々のアルゴリズムは最先端のアルゴリズムより優れており、証明可能な統計的保証で高い結果が得られる。
論文参考訳（メタデータ） (2022-06-06T18:35:19Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
CoDE: Collocation for Demonstration Encoding [31.220899638271856]
デモのためのコロケーション(Collocation for Demonstration)と呼ばれるデータ効率のよい模倣学習手法を提案する。最適制御におけるコロケーション技術からインスピレーションを得た補助軌道軌道を導入することにより、時間的問題による問題的バックプロパゲーションを回避する。テーブルトップ操作を効率的に行うための7自由度ロボットマニピュレータ学習行動形成政策の実験について述べる。
論文参考訳（メタデータ） (2021-05-07T00:34:43Z)
Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。 RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文参考訳（メタデータ） (2020-11-19T18:47:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。