論文の概要: Using Experience Classification for Training Non-Markovian Tasks
- arxiv url: http://arxiv.org/abs/2310.11678v1
- Date: Wed, 18 Oct 2023 03:00:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 17:56:44.317315
- Title: Using Experience Classification for Training Non-Markovian Tasks
- Title(参考訳): 経験分類を用いた非マルコフ課題の訓練
- Authors: Ruixuan Miao, Xu Lu, Cong Tian, Bin Yu, Zhenhua Duan
- Abstract要約: 非マルコフ的タスクは、自律運転、金融取引、医療診断などの実践的な応用に頻繁に適用される。
時間論理学で表される非マルコフ報酬を実現するための新しいRL手法を提案する。
- 参考スコア(独自算出の注目度): 11.267797018727402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike the standard Reinforcement Learning (RL) model, many real-world tasks
are non-Markovian, whose rewards are predicated on state history rather than
solely on the current state. Solving a non-Markovian task, frequently applied
in practical applications such as autonomous driving, financial trading, and
medical diagnosis, can be quite challenging. We propose a novel RL approach to
achieve non-Markovian rewards expressed in temporal logic LTL$_f$ (Linear
Temporal Logic over Finite Traces). To this end, an encoding of linear
complexity from LTL$_f$ into MDPs (Markov Decision Processes) is introduced to
take advantage of advanced RL algorithms. Then, a prioritized experience replay
technique based on the automata structure (semantics equivalent to LTL$_f$
specification) is utilized to improve the training process. We empirically
evaluate several benchmark problems augmented with non-Markovian tasks to
demonstrate the feasibility and effectiveness of our approach.
- Abstract(参考訳): 標準強化学習(rl)モデルとは異なり、多くの実世界のタスクは非マルコフ型であり、その報酬は現在の状態のみではなく、状態履歴に述語される。
自動運転、金融取引、医療診断といった実用的な用途にしばしば適用される非マルコフ的課題を解決することは、非常に困難である。
時間論理 LTL$_f$ (Linear Temporal Logic over Finite Traces) で表される非マルコフ報酬を実現するための新しいRL手法を提案する。
この目的のために、LTL$_f$ から MDP (Markov Decision Processes) への線形複雑性の符号化を導入し、高度な RL アルゴリズムを活用する。
次に、オートマトン構造(LTL$_f$仕様に相当する意味)に基づく優先体験再生技術を用いて、トレーニングプロセスを改善する。
我々は,非マルコフ的タスクを付加したいくつかのベンチマーク問題を実証的に評価し,本手法の有効性と有効性を示す。
関連論文リスト
- An Experimental Design Framework for Label-Efficient Supervised
Finetuning of Large Language Models [56.494109292472835]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Multi-Resolution Active Learning of Fourier Neural Operators [35.32147657972097]
本稿では,FNO(MRA-FNO)の多解能動学習を提案する。
具体的には,確率的多分解能FNOを提案し,モンテカルロのアンサンブルを用いて効果的な後部推論アルゴリズムを提案する。
いくつかのベンチマーク演算子学習タスクにおいて,本手法の利点を示した。
論文 参考訳(メタデータ) (2023-09-29T04:41:27Z) - PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical
Reinforcement Learning [30.533883667629887]
階層的強化学習は、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z) - Learning Progress Driven Multi-Agent Curriculum [18.239527837186216]
カリキュラム強化学習は、タスクの難易度を徐々に高めることによって学習を高速化することを目的としている。
本報告では,SPMARL(Self-paced MARL)を用いて,エピソードリターンではなくテキスト学習の進捗状況に基づくタスクの優先順位付けを行う。
論文 参考訳(メタデータ) (2022-05-20T08:16:30Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Inverse Reinforcement Learning of Autonomous Behaviors Encoded as
Weighted Finite Automata [18.972270182221262]
本稿では,論理タスク仕様とコスト関数を実演から学習する手法を提案する。
本稿では,タスクの未知論理構造を近似した重み付き有限オートマトン(WFA)の抽出にスペクトル学習手法を用いる。
高レベルタスクガイダンスのためのWFAと低レベル制御のためのラベル付きマルコフ決定プロセス(L-MDP)との間にある製品を定義し、実証者の行動にマッチするコスト関数を最適化する。
論文 参考訳(メタデータ) (2021-03-10T06:42:10Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。