論文の概要: Counting Reward Automata: Sample Efficient Reinforcement Learning
Through the Exploitation of Reward Function Structure
- arxiv url: http://arxiv.org/abs/2312.11364v2
- Date: Fri, 16 Feb 2024 19:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 04:10:54.598466
- Title: Counting Reward Automata: Sample Efficient Reinforcement Learning
Through the Exploitation of Reward Function Structure
- Title(参考訳): count reward automata: 報酬関数構造の活用による効率的な強化学習のサンプル
- Authors: Tristan Bester, Benjamin Rosman, Steven James, Geraud Nangue Tasse
- Abstract要約: 本稿では,形式言語として表現可能な任意の報酬関数をモデル化可能な有限状態機械変種であるカウント・リワード・オートマトンを提案する。
このような抽象機械を組み込んだエージェントが,現在の手法よりも大きなタスクの集合を解くことができることを実証する。
- 参考スコア(独自算出の注目度): 13.231546105751015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present counting reward automata-a finite state machine variant capable of
modelling any reward function expressible as a formal language. Unlike previous
approaches, which are limited to the expression of tasks as regular languages,
our framework allows for tasks described by unrestricted grammars. We prove
that an agent equipped with such an abstract machine is able to solve a larger
set of tasks than those utilising current approaches. We show that this
increase in expressive power does not come at the cost of increased automaton
complexity. A selection of learning algorithms are presented which exploit
automaton structure to improve sample efficiency. We show that the state
machines required in our formulation can be specified from natural language
task descriptions using large language models. Empirical results demonstrate
that our method outperforms competing approaches in terms of sample efficiency,
automaton complexity, and task completion.
- Abstract(参考訳): 形式言語として表現可能な任意の報酬関数をモデル化できる有限状態マシンであるカウント報酬オートマトンを提案する。
通常の言語としてのタスク表現に限られる従来のアプローチとは異なり、我々のフレームワークは制約のない文法で記述されたタスクを許容する。
このような抽象機械を備えたエージェントは、現在のアプローチを利用するエージェントよりも大きなタスク群を解決できることを実証する。
この表現力の増大は、オートマトンの複雑さの増加のコストを伴わないことを示す。
サンプル効率を向上させるためにオートマトン構造を利用する学習アルゴリズムの選定を行う。
提案手法では,大規模言語モデルを用いて自然言語タスク記述から要求される状態機械を特定できることを示す。
実験の結果,本手法は,サンプル効率,自動複雑度,タスク完了度の観点から,競合する手法よりも優れていた。
関連論文リスト
- Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - TaskBench: Benchmarking Large Language Models for Task Automation [85.3879908356586]
タスク自動化における大規模言語モデルの能力を評価するためにTaskBenchを導入します。
高品質な評価データセットを生成するために,ツールグラフの概念を導入する。
また,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Lemur: Integrating Large Language Models in Automated Program Verification [10.221822902660458]
自動プログラム検証のためのLLMと自動推論器のパワーを組み合わせるための一般的な手法を提案する。
本稿では,音声自動検証手法として計算をインスタンス化し,一連の合成および競合ベンチマークの実践的改善を実証する。
論文 参考訳(メタデータ) (2023-10-07T16:44:53Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Inverse Reinforcement Learning of Autonomous Behaviors Encoded as
Weighted Finite Automata [18.972270182221262]
本稿では,論理タスク仕様とコスト関数を実演から学習する手法を提案する。
本稿では,タスクの未知論理構造を近似した重み付き有限オートマトン(WFA)の抽出にスペクトル学習手法を用いる。
高レベルタスクガイダンスのためのWFAと低レベル制御のためのラベル付きマルコフ決定プロセス(L-MDP)との間にある製品を定義し、実証者の行動にマッチするコスト関数を最適化する。
論文 参考訳(メタデータ) (2021-03-10T06:42:10Z) - AutoPrompt: Eliciting Knowledge from Language Models with Automatically
Generated Prompts [46.03503882865222]
AutoPromptは、勾配誘導検索に基づいて、さまざまなタスクセットのプロンプトを作成する自動メソッドである。
マスク付き言語モデル(MLM)は,感情分析や自然言語推論を,追加パラメータや微調整を伴わずに行う能力を持つことを示す。
論文 参考訳(メタデータ) (2020-10-29T22:54:00Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z) - Induction and Exploitation of Subgoal Automata for Reinforcement
Learning [75.55324974788475]
本稿では,Regressed Learning (RL)タスクにおけるサブゴールの学習と活用のためのISAを提案する。
ISAは、タスクのサブゴールによってエッジがラベル付けされたオートマトンであるサブゴールオートマトンを誘導することで強化学習をインターリーブする。
サブゴールオートマトンはまた、タスクの完了を示す状態と、タスクが成功せずに完了したことを示す状態の2つの特別な状態で構成されている。
論文 参考訳(メタデータ) (2020-09-08T16:42:55Z) - A Composable Specification Language for Reinforcement Learning Tasks [23.08652058034537]
本稿では,複雑な制御タスクを特定するための言語と,言語仕様を報酬関数にコンパイルし,報酬形成を自動的に行うアルゴリズムを提案する。
我々は、SPECTRLと呼ばれるツールにアプローチを実装し、最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-21T03:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。