論文の概要: RLang: A Declarative Language for Expression Prior Knowledge for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.06448v1
- Date: Fri, 12 Aug 2022 18:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:09:24.974600
- Title: RLang: A Declarative Language for Expression Prior Knowledge for
Reinforcement Learning
- Title(参考訳): RLang: 強化学習のための事前知識を表現するための宣言型言語
- Authors: Rafael Rodriguez-Sanchez, Benjamin Spiegel, Jennifer Wang, Roma Patel,
Stefanie Tellex and George Konidaris
- Abstract要約: 強化学習エージェントにドメイン知識を伝えるためのドメイン固有言語であるRLangを紹介する。
RLangは意思決定フォーマリズムのすべての要素に関する情報を指定できる。
本稿では、RLangプログラムの一連の例を示し、異なるRL手法が結果の知識をどのように活用できるかを実証する。
- 参考スコア(独自算出の注目度): 21.87523364315568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Communicating useful background knowledge to reinforcement learning (RL)
agents is an important and effective method for accelerating learning. We
introduce RLang, a domain-specific language (DSL) for communicating domain
knowledge to an RL agent. Unlike other existing DSLs proposed by the RL
community that ground to single elements of a decision-making formalism (e.g.,
the reward function or policy function), RLang can specify information about
every element of a Markov decision process. We define precise syntax and
grounding semantics for RLang, and provide a parser implementation that grounds
RLang programs to an algorithm-agnostic partial world model and policy that can
be exploited by an RL agent. We provide a series of example RLang programs, and
demonstrate how different RL methods can exploit the resulting knowledge,
including model-free and model-based tabular algorithms, hierarchical
approaches, and deep RL algorithms (including both policy gradient and
value-based methods).
- Abstract(参考訳): 強化学習(RL)エージェントに有用な背景知識を伝達することは、学習を加速するための重要かつ効果的な方法である。
ドメイン固有言語(DSL)であるRLangを導入し、ドメイン知識をRLエージェントに伝達する。
意思決定形式主義(例えば報酬関数やポリシー関数)の単一要素を基礎とする他の既存のDSLとは異なり、RLangはマルコフ決定プロセスのすべての要素に関する情報を指定できる。
我々はRLangの正確な構文と接地意味を定義し、RLangプログラムをアルゴリズムに依存しない部分世界モデルとRLエージェントが活用できるポリシーに基盤付けるパーサ実装を提供する。
本稿では、RLangプログラムの例を示し、モデルフリーおよびモデルベースグラフアルゴリズム、階層的アプローチ、深いRLアルゴリズム(ポリシーグラデーションと値ベース手法の両方を含む)など、異なるRL手法が結果の知識をどのように活用できるかを示す。
関連論文リスト
- Natural Language Reinforcement Learning [23.310602238815285]
Reinforcement Learning (RL) はマルコフ決定過程 (MDP) を用いて決定を数学的に定式化する
本稿では,従来のMDPを自然言語に基づく表現空間に拡張することで,自然言語強化学習(NLRL)の可能性を探る。
論文 参考訳(メタデータ) (2024-11-21T15:57:02Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Language Guided Exploration for RL Agents in Text Environments [15.256908785183617]
LLM(Large Language Models)は、世界知識の豊富な言語モデルであり、RLエージェントが素早く学習し、分散シフトに適応するのに役立つ。
我々は、事前訓練された言語モデルを用いて、RLエージェント(EXPLORER)に決定レベルのガイダンスを提供するLanguage Guided Exploration(LGE)フレームワークを紹介する。
我々は,難易度の高いテキスト環境であるScienceWorldにおいて,LGEがバニラRLエージェントを著しく上回り,Behaviour CloningやText Decision Transformerなどの高度な手法を上回ります。
論文 参考訳(メタデータ) (2024-03-05T17:26:41Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - External Reasoning: Towards Multi-Large-Language-Models Interchangeable
Assistance with Human Feedback [0.0]
本稿では、外部リポジトリからの知識の選択的統合により、LLM(Large Language Models)を拡張できることを提案する。
このアプローチの中心は、複数のLLMインターチェンジ支援に基づくTextbf外部推論のためのタイレッドポリシーの確立である。
結果は、Crefcomparisonにおける最先端のパフォーマンスを示し、ChatPDF.comを含む既存のソリューションを上回った。
論文 参考訳(メタデータ) (2023-07-05T17:05:32Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - Universal Policies for Software-Defined MDPs [4.760079434948198]
我々は,非決定論的選択を表すプリミティブな 'choose' を用いて,このパラダイムを表わす新しいプログラミング言語 dodona を試作した。
我々は,何百もの合成タスクにおけるメタラーニングによるゼロショット指導の可能性を示す。
論文 参考訳(メタデータ) (2020-12-21T15:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。