論文の概要: ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.14176v1
- Date: Thu, 16 Oct 2025 00:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.657143
- Title: ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning
- Title(参考訳): ARM-FM:構成強化学習のための基礎モデルによる自動リワードマシン
- Authors: Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth,
- Abstract要約: 本稿では、ファンデーションモデルによるARM-FM: Automated Reward Machinesを紹介する。
強化学習における自動構成報酬設計のためのフレームワークである。
ARM-FMの有効性を示す実証的な証拠を,多様な環境において提示する。
- 参考スコア(独自算出の注目度): 27.2523363538064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) algorithms are highly sensitive to reward function specification, which remains a central challenge limiting their broad applicability. We present ARM-FM: Automated Reward Machines via Foundation Models, a framework for automated, compositional reward design in RL that leverages the high-level reasoning capabilities of foundation models (FMs). Reward machines (RMs) -- an automata-based formalism for reward specification -- are used as the mechanism for RL objective specification, and are automatically constructed via the use of FMs. The structured formalism of RMs yields effective task decompositions, while the use of FMs enables objective specifications in natural language. Concretely, we (i) use FMs to automatically generate RMs from natural language specifications; (ii) associate language embeddings with each RM automata-state to enable generalization across tasks; and (iii) provide empirical evidence of ARM-FM's effectiveness in a diverse suite of challenging environments, including evidence of zero-shot generalization.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) アルゴリズムは報酬関数の仕様に非常に敏感であり, 広範に適用性を制限する中心的な課題である。
ARM-FM: ファンデーションモデルによる自動リワードマシン - ファンデーションモデル(FM)の高レベル推論能力を活用するRLにおける自動合成報酬設計のためのフレームワーク。
Reward Machine (RM) - 報酬仕様のためのオートマタベースの形式であり、RL客観的仕様のメカニズムとして使われ、FMを使って自動的に構築される。
RMの構造的形式は効果的なタスク分解をもたらす一方、FMは自然言語の客観的仕様を可能にする。
具体的には
(i)FMを使用して、自然言語仕様からRMを自動的に生成する。
(II)タスク間の一般化を実現するために各RMオートマトン状態に言語埋め込みを関連付けること。
三 ARM-FMの有効性の実証的な証拠を、ゼロショットの一般化の証拠を含む様々な困難環境において提示する。
関連論文リスト
- Fully Learnable Neural Reward Machines [0.0]
本稿では,Symbol Grounding関数とエンドツーエンドの両方を学習可能な,完全に学習可能なNeural Reward Machines(NRM)を提案する。
我々のアプローチは古典的な深いRL(DRL)アプローチと同じくらい簡単に適用できるが、より説明しやすい。
論文 参考訳(メタデータ) (2025-09-23T13:57:13Z) - RewardAnything: Generalizable Principle-Following Reward Models [82.16312590749052]
リワードモデルは典型的には、固定された嗜好データセットに基づいて訓練される。
これにより、様々な現実世界のニーズへの適応が、あるタスクにおける簡潔さから別のタスクにおける詳細な説明への適応を妨げる。
一般化可能な原理追従型報酬モデルを導入する。
RewardAnythingは、自然言語の原則を明示的に追従するようにデザインされ、訓練された新しいRMである。
論文 参考訳(メタデータ) (2025-06-04T07:30:16Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Foundation Model Sherpas: Guiding Foundation Models through Knowledge
and Reasoning [23.763256908202496]
ファンデーションモデル(FM)は、さまざまなタスクにおいて顕著なパフォーマンスを示すことによって、AIの分野に革命をもたらした。
FMは、多くの現実世界システムで広く採用されるのを防ぐために、多くの制限を課している。
エージェントがFMと対話できる様々なモードをカプセル化する概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:00:35Z) - Large Multi-Modal Models (LMMs) as Universal Foundation Models for
AI-Native Wireless Systems [57.41621687431203]
大規模言語モデル (LLM) と基礎モデルは6Gシステムのゲームチェンジャーとして最近注目されている。
本稿では,人工知能(AI)ネイティブネットワークの展開に適したユニバーサルファンデーションモデルを設計するための包括的ビジョンを提案する。
論文 参考訳(メタデータ) (2024-01-30T00:21:41Z) - Bridging the Gap Between Foundation Models and Heterogeneous Federated
Learning [9.198799314774437]
Federated Learning(FL)は、プライバシ保護による分散機械学習を提供し、プライベートデータを共有せずにエッジクライアントのモデルを最適化する。
ファンデーションモデル(FM)は、人工知能(AI)コミュニティにおいて、様々なタスクにまたがる例外的なパフォーマンスのために、注目を集めている。
本稿では、これらの課題に対処するため、リソース対応フェデレーション・ファンデーション・モデル(RaFFM)の適応フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T04:31:53Z) - From Cloze to Comprehension: Retrofitting Pre-trained Masked Language
Model to Pre-trained Machine Reader [130.45769668885487]
Pre-trained Machine Reader (PMR) は、ラベル付きデータを取得することなく、MLMを事前学習機械読解(MRC)モデルに適合させる新しい手法である。
提案したPMRを構築するために,多量の汎用および高品質なMRCスタイルのトレーニングデータを構築した。
PMRは、MRCの定式化における様々な抽出および分類タスクに対処するための統一モデルとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-12-09T10:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。