論文の概要: ParMod: A Parallel and Modular Framework for Learning Non-Markovian Tasks
- arxiv url: http://arxiv.org/abs/2412.12700v1
- Date: Tue, 17 Dec 2024 09:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:00:57.596332
- Title: ParMod: A Parallel and Modular Framework for Learning Non-Markovian Tasks
- Title(参考訳): ParMod: 非マルコフタスクを学習するための並列かつモジュール型フレームワーク
- Authors: Ruixuan Miao, Xu Lu, Cong Tian, Bin Yu, Zhenhua Duan,
- Abstract要約: 多くの実世界のタスクは、長期記憶と依存性を持つ非マルコフ的タスクである。
時間論理で指定されたNMTを学習するための新しい textbfParallel と textbfModular RL フレームワークである ParMod を提案する。
したがって、我々の研究は、RL、NMT、時間論理学の間で良い相乗効果をもたらす。
- 参考スコア(独自算出の注目度): 10.50271660672655
- License:
- Abstract: The commonly used Reinforcement Learning (RL) model, MDPs (Markov Decision Processes), has a basic premise that rewards depend on the current state and action only. However, many real-world tasks are non-Markovian, which has long-term memory and dependency. The reward sparseness problem is further amplified in non-Markovian scenarios. Hence learning a non-Markovian task (NMT) is inherently more difficult than learning a Markovian one. In this paper, we propose a novel \textbf{Par}allel and \textbf{Mod}ular RL framework, ParMod, specifically for learning NMTs specified by temporal logic. With the aid of formal techniques, the NMT is modulaized into a series of sub-tasks based on the automaton structure (equivalent to its temporal logic counterpart). On this basis, sub-tasks will be trained by a group of agents in a parallel fashion, with one agent handling one sub-task. Besides parallel training, the core of ParMod lies in: a flexible classification method for modularizing the NMT, and an effective reward shaping method for improving the sample efficiency. A comprehensive evaluation is conducted on several challenging benchmark problems with respect to various metrics. The experimental results show that ParMod achieves superior performance over other relevant studies. Our work thus provides a good synergy among RL, NMT and temporal logic.
- Abstract(参考訳): 一般的に使われている強化学習(RL)モデルであるMDP(マルコフ決定過程)は、報酬が現在の状態と行動のみに依存するという基本的な前提を持っている。
しかし、多くの実世界のタスクは、長期記憶と依存性を持つ非マルコフ的タスクである。
報酬スパース性問題は、非マルコフ的シナリオにおいてさらに増幅される。
したがって、非マルコフ的タスク(NMT)を学ぶことは、マルコフ的タスクを学ぶことよりも本質的に難しい。
本稿では、時間論理で指定されたNMTを学習するために、新しい \textbf{Par}allel と \textbf{Mod}ular RL フレームワークである ParMod を提案する。
形式的手法の助けを借りて、NMTはオートマトン構造(時間論理と同等)に基づいて一連のサブタスクに変調される。
このベースで、サブタスクはエージェントのグループによって並列に訓練され、1つのエージェントが1つのサブタスクを処理する。
並列トレーニングの他に、NMTをモジュール化するための柔軟な分類法であるParModと、サンプル効率を改善する効果的な報酬形成法がある。
様々な指標に関して、いくつかの挑戦的なベンチマーク問題に対して総合的な評価を行う。
実験の結果,ParModは他の研究よりも優れた性能を示した。
したがって、我々の研究は、RL、NMT、時間論理学の間で良い相乗効果をもたらす。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。
理論的には,本手法は訓練作業数のサブリニアな後悔を示す。
都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文 参考訳(メタデータ) (2024-08-08T14:46:01Z) - Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task
Adaptation [45.90925587972781]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。
計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。
MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文 参考訳(メタデータ) (2023-10-04T14:11:12Z) - TART: A plug-and-play Transformer module for task-agnostic reasoning [38.84903599406189]
大規模言語モデル(LLM)は、同じモデルがタスク固有のトレーニングを使わずに複数のタスクを実行できる、コンテキスト内学習能力を示す。
微調整のような従来の適応アプローチは、特定のタスクごとに基礎となるモデルを変更する。
合成学習したTransformerベースの推論モジュールを用いて,LLMの推論能力を汎用的に向上するTARTを提案する。
論文 参考訳(メタデータ) (2023-06-13T04:37:00Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Curriculum Modeling the Dependence among Targets with Multi-task
Learning for Financial Marketing [26.80709680959278]
本稿では,複数順序依存型タスク学習のための事前情報統合モデル(textbfPIMM)を提案する。
PIMは、トレーニング中に下流タスクに転送するソフトサンプリング戦略により、真のラベル情報または先行タスク予測をランダムに選択する。
公開データセットと製品データセットのオフライン実験結果は、PIMMが最先端のベースラインを上回っていることを確認する。
論文 参考訳(メタデータ) (2023-04-25T07:55:16Z) - Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。
複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。
テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文 参考訳(メタデータ) (2022-11-30T16:26:38Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Learning to Multi-Task Learn for Better Neural Machine Translation [53.06405021125476]
マルチタスク学習は、言語関連バイアスをニューラルネットワーク翻訳モデルに注入するエレガントなアプローチである。
本稿では,学習スケジュールの学習,マルチタスク学習のための新しいフレームワークを提案する。
実験の結果、自動学習したトレーニングスケジューラがベストと競い合っており、最大1.1BLEUスコアが向上している。
論文 参考訳(メタデータ) (2020-01-10T03:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。