Fugu-MT 論文翻訳(概要): Counting Reward Automata: Sample Efficient Reinforcement Learning Through the Exploitation of Reward Function Structure

論文の概要: Counting Reward Automata: Sample Efficient Reinforcement Learning Through the Exploitation of Reward Function Structure

arxiv url: http://arxiv.org/abs/2312.11364v1
Date: Mon, 18 Dec 2023 17:20:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 19:21:38.881162
Title: Counting Reward Automata: Sample Efficient Reinforcement Learning Through the Exploitation of Reward Function Structure
Title（参考訳）: count reward automata: 報酬関数構造の活用による効率的な強化学習のサンプル
Authors: Tristan Bester, Benjamin Rosman, Steven James, Geraud Nangue Tasse
Abstract要約: 本稿では,形式言語として表現可能な任意の報酬関数をモデル化可能な有限状態機械変種であるカウント・リワード・オートマトンを提案する。このような抽象機械を組み込んだエージェントが,現在の手法よりも大きなタスクの集合を解くことができることを実証する。
参考スコア（独自算出の注目度）: 13.231546105751015
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present counting reward automata-a finite state machine variant capable of modelling any reward function expressible as a formal language. Unlike previous approaches, which are limited to the expression of tasks as regular languages, our framework allows for tasks described by unrestricted grammars. We prove that an agent equipped with such an abstract machine is able to solve a larger set of tasks than those utilising current approaches. We show that this increase in expressive power does not come at the cost of increased automaton complexity. A selection of learning algorithms are presented which exploit automaton structure to improve sample efficiency. We show that the state machines required in our formulation can be specified from natural language task descriptions using large language models. Empirical results demonstrate that our method outperforms competing approaches in terms of sample efficiency, automaton complexity, and task completion.
Abstract（参考訳）: 形式言語として表現可能な任意の報酬関数をモデル化できる有限状態マシンであるカウント報酬オートマトンを提案する。通常の言語としてのタスク表現に限られる従来のアプローチとは異なり、我々のフレームワークは制約のない文法で記述されたタスクを許容する。このような抽象機械を備えたエージェントは、現在のアプローチを利用するエージェントよりも大きなタスク群を解決できることを実証する。この表現力の増大は、オートマトンの複雑さの増加のコストを伴わないことを示す。サンプル効率を向上させるためにオートマトン構造を利用する学習アルゴリズムの選定を行う。提案手法では,大規模言語モデルを用いて自然言語タスク記述から要求される状態機械を特定できることを示す。実験の結果,本手法は,サンプル効率,自動複雑度,タスク完了度の観点から,競合する手法よりも優れていた。

関連論文リスト

Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Learning Quantitative Automata Modulo Theories [17.33092604696224]
本稿では,学習者が帰納的推論によって有効なオートマトンを推論する,能動的学習アルゴリズムQUINTICを提案する。本評価では, 累積, 減算, 積, 量的オートマトンを学習するために, 有理理論を利用する。
論文参考訳（メタデータ） (2024-11-15T21:51:14Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
Lemur: Integrating Large Language Models in Automated Program Verification [10.221822902660458]
自動プログラム検証のためのLLMと自動推論器のパワーを組み合わせるための一般的な手法を提案する。本稿では,音声自動検証手法として計算をインスタンス化し,一連の合成および競合ベンチマークの実践的改善を実証する。
論文参考訳（メタデータ） (2023-10-07T16:44:53Z)
Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文参考訳（メタデータ） (2023-07-10T17:32:13Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
Inverse Reinforcement Learning of Autonomous Behaviors Encoded as Weighted Finite Automata [18.972270182221262]
本稿では,論理タスク仕様とコスト関数を実演から学習する手法を提案する。本稿では,タスクの未知論理構造を近似した重み付き有限オートマトン(WFA)の抽出にスペクトル学習手法を用いる。高レベルタスクガイダンスのためのWFAと低レベル制御のためのラベル付きマルコフ決定プロセス(L-MDP)との間にある製品を定義し、実証者の行動にマッチするコスト関数を最適化する。
論文参考訳（メタデータ） (2021-03-10T06:42:10Z)
AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts [46.03503882865222]
AutoPromptは、勾配誘導検索に基づいて、さまざまなタスクセットのプロンプトを作成する自動メソッドである。マスク付き言語モデル(MLM)は,感情分析や自然言語推論を,追加パラメータや微調整を伴わずに行う能力を持つことを示す。
論文参考訳（メタデータ） (2020-10-29T22:54:00Z)
Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文参考訳（メタデータ） (2020-10-10T14:03:20Z)
Induction and Exploitation of Subgoal Automata for Reinforcement Learning [75.55324974788475]
本稿では,Regressed Learning (RL)タスクにおけるサブゴールの学習と活用のためのISAを提案する。 ISAは、タスクのサブゴールによってエッジがラベル付けされたオートマトンであるサブゴールオートマトンを誘導することで強化学習をインターリーブする。サブゴールオートマトンはまた、タスクの完了を示す状態と、タスクが成功せずに完了したことを示す状態の2つの特別な状態で構成されている。
論文参考訳（メタデータ） (2020-09-08T16:42:55Z)
A Composable Specification Language for Reinforcement Learning Tasks [23.08652058034537]
本稿では,複雑な制御タスクを特定するための言語と,言語仕様を報酬関数にコンパイルし,報酬形成を自動的に行うアルゴリズムを提案する。我々は、SPECTRLと呼ばれるツールにアプローチを実装し、最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2020-08-21T03:40:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。