論文の概要: $\texttt{FORM}$: Learning Expressive and Transferable First-Order Logic Reward Machines
- arxiv url: http://arxiv.org/abs/2501.00364v1
- Date: Tue, 31 Dec 2024 09:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:17.302312
- Title: $\texttt{FORM}$: Learning Expressive and Transferable First-Order Logic Reward Machines
- Title(参考訳): $\texttt{FORM}$: Learning Expressive and Transferable First-order Logic Reward Machines
- Authors: Leo Ardon, Daniel Furelos-Blanco, Roko Parać, Alessandra Russo,
- Abstract要約: Reward Machine(RM)は、強化学習における非マルコフ報酬に対処するための効果的なアプローチである。
本稿では,エッジのラベル付けに一階述語論理を用いる一階述語機械(texttFORM$s)を提案する。
我々は、従来のRM学習アプローチが失敗するタスクに対して、$texttFORM$sを効果的に学習できることを示します。
- 参考スコア(独自算出の注目度): 48.36822060760614
- License:
- Abstract: Reward machines (RMs) are an effective approach for addressing non-Markovian rewards in reinforcement learning (RL) through finite-state machines. Traditional RMs, which label edges with propositional logic formulae, inherit the limited expressivity of propositional logic. This limitation hinders the learnability and transferability of RMs since complex tasks will require numerous states and edges. To overcome these challenges, we propose First-Order Reward Machines ($\texttt{FORM}$s), which use first-order logic to label edges, resulting in more compact and transferable RMs. We introduce a novel method for $\textbf{learning}$ $\texttt{FORM}$s and a multi-agent formulation for $\textbf{exploiting}$ them and facilitate their transferability, where multiple agents collaboratively learn policies for a shared $\texttt{FORM}$. Our experimental results demonstrate the scalability of $\texttt{FORM}$s with respect to traditional RMs. Specifically, we show that $\texttt{FORM}$s can be effectively learnt for tasks where traditional RM learning approaches fail. We also show significant improvements in learning speed and task transferability thanks to the multi-agent learning framework and the abstraction provided by the first-order language.
- Abstract(参考訳): Reward Machine(RM)は、有限状態機械による強化学習(RL)における非マルコフ報酬に対処するための効果的なアプローチである。
命題論理式でエッジをラベル付けする伝統的なRMは、命題論理の限定表現性を継承する。
この制限は、複雑なタスクが多くの状態とエッジを必要とするため、RMの学習可能性や伝達可能性を妨げる。
これらの課題を克服するために、エッジのラベル付けに一階論理を用いる一階リワードマシン(\texttt{FORM}$s)を提案する。
我々は、$\textbf{learning}$ $\texttt{FORM}$sの新しいメソッドと、$\textbf{exploiting}$のマルチエージェントの定式化を導入し、共有された$\texttt{FORM}$のポリシーを複数のエージェントが共同で学習する転送可能性を促進する。
実験により,従来のRMに対する$\texttt{FORM}$sのスケーラビリティを示す。
具体的には、従来のRM学習アプローチが失敗するタスクに対して、$\texttt{FORM}$sを効果的に学習できることを示します。
また、マルチエージェント学習フレームワークと1次言語が提供する抽象化のおかげで、学習速度とタスク転送性も大幅に向上した。
関連論文リスト
- Cut the Crap: An Economical Communication Pipeline for LLM-based Multi-Agent Systems [42.137278756052595]
$texttAgentPrune$は、メインストリームのマルチエージェントシステムにシームレスに統合できる。
textbf(I)は、既存のマルチエージェントフレームワークとシームレスに統合され、28.1%sim72.8%downarrow$トークンの削減を行う。
textbf(III)は2種類のエージェントベースの敵攻撃に対して3.5%sim10.8%uparrow$パフォーマンス向上で防御に成功した。
論文 参考訳(メタデータ) (2024-10-03T14:14:31Z) - Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。
P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文 参考訳(メタデータ) (2024-08-09T11:30:52Z) - Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task
Adaptation [45.90925587972781]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。
計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。
MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文 参考訳(メタデータ) (2023-10-04T14:11:12Z) - Correct and Optimal: the Regular Expression Inference Challenge [10.899596368151892]
コード/言語モデリングの課題として正規表現推論(REI)を提案する。
私たちはREIのための最初の大規模データセットを作成し、公開します。
論文 参考訳(メタデータ) (2023-08-15T17:40:10Z) - Scaling Distributed Multi-task Reinforcement Learning with Experience
Sharing [38.883540444516605]
DARPAはShELLプログラムを立ち上げた。これは、経験共有が分散生涯学習エージェントにどのように役立つかを探求することを目的としている。
分散マルチタスク強化学習(RL)の理論的および実証的研究を行い、N$エージェントのグループがM$タスクを協調的に解決する。
我々はDistMT-LSVIと呼ばれるアルゴリズムを提案し、各エージェントは独立に$epsilon$-optimal Policyを全ての$M$タスクに対して学習する。
論文 参考訳(メタデータ) (2023-07-11T22:58:53Z) - Learning In-context Learning for Named Entity Recognition [54.022036267886214]
実世界のアプリケーションにおける名前付きエンティティ認識は、エンティティタイプの多様性、新しいエンティティタイプの出現、高品質なアノテーションの欠如に悩まされている。
本稿では,PLMにテキスト内NER機能を効果的に注入可能な,テキスト内学習に基づくNERアプローチを提案する。
提案手法は,テキスト内NER能力をPLMに効果的に注入し,PLM+fine-tuningよりも優れることを示す。
論文 参考訳(メタデータ) (2023-05-18T15:31:34Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Hierarchies of Reward Machines [75.55324974788475]
リワードマシン(Reward Machine, RM)は、有限状態機械による強化学習タスクの報酬関数を表現するための最近の形式である。
本稿では,RMを他のRMを呼ばせることによって,サブタスク構造をさらに抽象化する形式的手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T12:39:24Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。