Fugu-MT 論文翻訳(概要): $\texttt{FORM}$: Learning Expressive and Transferable First-Order Logic Reward Machines

論文の概要: $\texttt{FORM}$: Learning Expressive and Transferable First-Order Logic Reward Machines

arxiv url: http://arxiv.org/abs/2501.00364v1
Date: Tue, 31 Dec 2024 09:31:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:31.577734
Title: $\texttt{FORM}$: Learning Expressive and Transferable First-Order Logic Reward Machines
Title（参考訳）: $\texttt{FORM}$: Learning Expressive and Transferable First-order Logic Reward Machines
Authors: Leo Ardon, Daniel Furelos-Blanco, Roko Parać, Alessandra Russo,
Abstract要約: Reward Machine(RM)は、強化学習における非マルコフ報酬に対処するための効果的なアプローチである。本稿では,エッジのラベル付けに一階述語論理を用いる一階述語機械(texttFORM$s)を提案する。我々は、従来のRM学習アプローチが失敗するタスクに対して、$texttFORM$sを効果的に学習できることを示します。
参考スコア（独自算出の注目度）: 48.36822060760614
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reward machines (RMs) are an effective approach for addressing non-Markovian rewards in reinforcement learning (RL) through finite-state machines. Traditional RMs, which label edges with propositional logic formulae, inherit the limited expressivity of propositional logic. This limitation hinders the learnability and transferability of RMs since complex tasks will require numerous states and edges. To overcome these challenges, we propose First-Order Reward Machines ($\texttt{FORM}$s), which use first-order logic to label edges, resulting in more compact and transferable RMs. We introduce a novel method for $\textbf{learning}$ $\texttt{FORM}$s and a multi-agent formulation for $\textbf{exploiting}$ them and facilitate their transferability, where multiple agents collaboratively learn policies for a shared $\texttt{FORM}$. Our experimental results demonstrate the scalability of $\texttt{FORM}$s with respect to traditional RMs. Specifically, we show that $\texttt{FORM}$s can be effectively learnt for tasks where traditional RM learning approaches fail. We also show significant improvements in learning speed and task transferability thanks to the multi-agent learning framework and the abstraction provided by the first-order language.
Abstract（参考訳）: Reward Machine(RM)は、有限状態機械による強化学習(RL)における非マルコフ報酬に対処するための効果的なアプローチである。命題論理式でエッジをラベル付けする伝統的なRMは、命題論理の限定表現性を継承する。この制限は、複雑なタスクが多くの状態とエッジを必要とするため、RMの学習可能性や伝達可能性を妨げる。これらの課題を克服するために、エッジのラベル付けに一階論理を用いる一階リワードマシン(\texttt{FORM}$s)を提案する。我々は、$\textbf{learning}$ $\texttt{FORM}$sの新しいメソッドと、$\textbf{exploiting}$のマルチエージェントの定式化を導入し、共有された$\texttt{FORM}$のポリシーを複数のエージェントが共同で学習する転送可能性を促進する。実験により,従来のRMに対する$\texttt{FORM}$sのスケーラビリティを示す。具体的には、従来のRM学習アプローチが失敗するタスクに対して、$\texttt{FORM}$sを効果的に学習できることを示します。また、マルチエージェント学習フレームワークと1次言語が提供する抽象化のおかげで、学習速度とタスク転送性も大幅に向上した。

関連論文リスト

Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation [9.282278040339138]
$textbfR2Rec$は推論強化レコメンデーションフレームワークである。ユーザアイコングラフからインタラクションチェーンをサンプリングし、それらを構造化されたインタラクション・オブ・思想に変換する。
論文参考訳（メタデータ） (2025-06-05T14:16:44Z)
RewardAnything: Generalizable Principle-Following Reward Models [82.16312590749052]
リワードモデルは典型的には、固定された嗜好データセットに基づいて訓練される。これにより、様々な現実世界のニーズへの適応が、あるタスクにおける簡潔さから別のタスクにおける詳細な説明への適応を妨げる。一般化可能な原理追従型報酬モデルを導入する。 RewardAnythingは、自然言語の原則を明示的に追従するようにデザインされ、訓練された新しいRMである。
論文参考訳（メタデータ） (2025-06-04T07:30:16Z)
Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文参考訳（メタデータ） (2025-05-25T11:03:45Z)
$\texttt{SEM-CTRL}$: Semantically Controlled Decoding [53.86639808659575]
$texttSEM-CTRL$は、LLMデコーダに直接、リッチなコンテキスト依存制約とタスクおよびインスタンス固有のセマンティクスを強制する統一的なアプローチである。 texttSEM-CTRL$は、小さな訓練済みのLLMがより大きな変種や最先端の推論モデルよりも効率的に性能を向上することを可能にする。
論文参考訳（メタデータ） (2025-03-03T18:33:46Z)
Reward Machine Inference for Robotic Manipulation [1.6135226672466307]
Reward Machines (RM) は、RLが拡張された時間的地平線上でポリシーをトレーニングする能力を向上する。本稿では,ロボット操作タスクの視覚的実演から直接RMを学習するための新しいLfD手法を提案する。提案手法を視覚に基づく操作タスクに適用し,推論されたRMがタスク構造を正確に把握し,RLエージェントが最適なポリシーを効果的に学習できることを示す。
論文参考訳（メタデータ） (2024-12-13T12:32:53Z)
Cut the Crap: An Economical Communication Pipeline for LLM-based Multi-Agent Systems [42.137278756052595]
$texttAgentPrune$は、メインストリームのマルチエージェントシステムにシームレスに統合できる。 textbf(I)は、既存のマルチエージェントフレームワークとシームレスに統合され、28.1%sim72.8%downarrow$トークンの削減を行う。 textbf(III)は2種類のエージェントベースの敵攻撃に対して3.5%sim10.8%uparrow$パフォーマンス向上で防御に成功した。
論文参考訳（メタデータ） (2024-10-03T14:14:31Z)
LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits [56.93583799109029]
本稿では,マルチアームバンディット問題として報酬モデル選択を行うLASeRを提案する。 LASeRは反復トレーニングを促進し、3つのデータセットに対してLlama-3-8Bの平均精度を絶対的に向上することを示す。また、RAeRはRMスコアアンサンブルベースラインよりも72.69%のAlpacaEval勝利率を達成していることを示す。
論文参考訳（メタデータ） (2024-10-02T16:46:38Z)
Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。 P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文参考訳（メタデータ） (2024-08-09T11:30:52Z)
M$^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation [78.77004913030285]
M$3$GPTは、理解と生成のための先進的な$textbfM$ultimodal, $textbfM$ultitaskフレームワークである。我々は、テキスト、音楽、モーション/ダンスなどのマルチモーダルな条件信号に対して離散ベクトル量子化を用い、大きな言語モデルへのシームレスな統合を可能にした。 M$3$GPTは、様々な動作関連タスク間の接続とシナジーをモデル化することを学ぶ。
論文参考訳（メタデータ） (2024-05-25T15:21:59Z)
Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task Adaptation [45.90925587972781]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。 MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文参考訳（メタデータ） (2023-10-04T14:11:12Z)
Correct and Optimal: the Regular Expression Inference Challenge [10.899596368151892]
コード/言語モデリングの課題として正規表現推論(REI)を提案する。私たちはREIのための最初の大規模データセットを作成し、公開します。
論文参考訳（メタデータ） (2023-08-15T17:40:10Z)
Learning In-context Learning for Named Entity Recognition [54.022036267886214]
実世界のアプリケーションにおける名前付きエンティティ認識は、エンティティタイプの多様性、新しいエンティティタイプの出現、高品質なアノテーションの欠如に悩まされている。本稿では,PLMにテキスト内NER機能を効果的に注入可能な,テキスト内学習に基づくNERアプローチを提案する。提案手法は,テキスト内NER能力をPLMに効果的に注入し,PLM+fine-tuningよりも優れることを示す。
論文参考訳（メタデータ） (2023-05-18T15:31:34Z)
Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。 IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文参考訳（メタデータ） (2022-10-14T00:04:49Z)
Hierarchies of Reward Machines [75.55324974788475]
リワードマシン(Reward Machine, RM)は、有限状態機械による強化学習タスクの報酬関数を表現するための最近の形式である。本稿では,RMを他のRMを呼ばせることによって,サブタスク構造をさらに抽象化する形式的手法を提案する。
論文参考訳（メタデータ） (2022-05-31T12:39:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。