論文の概要: RLAF: Reinforcement Learning from Automaton Feedback
- arxiv url: http://arxiv.org/abs/2510.15728v1
- Date: Fri, 17 Oct 2025 15:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.675238
- Title: RLAF: Reinforcement Learning from Automaton Feedback
- Title(参考訳): RLAF: オートマトンフィードバックによる強化学習
- Authors: Mahyar Alinejad, Alvaro Velasquez, Yue Wang, George Atia,
- Abstract要約: 複雑で歴史に依存した報酬構造を持つ環境における強化学習(RL)は、従来の手法に重大な課題をもたらす。
本稿では,学習プロセスの指導にオートマトンに基づくフィードバックを活用する新しいアプローチを提案し,決定論的有限オートマトン(DFA)から導出される選好に,明示的な報酬関数を置き換える。
本研究は,非マルコフ報酬の処理において,オートマトンに基づく選好の利点を強調し,従来の報酬モデルに代わる,スケーラブルで効率的で人間に依存しない代替手段を提供する。
- 参考スコア(独自算出の注目度): 8.266016076430516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) in environments with complex, history-dependent reward structures poses significant challenges for traditional methods. In this work, we introduce a novel approach that leverages automaton-based feedback to guide the learning process, replacing explicit reward functions with preferences derived from a deterministic finite automaton (DFA). Unlike conventional approaches that use automata for direct reward specification, our method employs the structure of the DFA to generate preferences over trajectories that are used to learn a reward function, eliminating the need for manual reward engineering. Our framework introduces a static approach that uses the learned reward function directly for policy optimization and a dynamic approach that involves continuous refining of the reward function and policy through iterative updates until convergence. Our experiments in both discrete and continuous environments demonstrate that our approach enables the RL agent to learn effective policies for tasks with temporal dependencies, outperforming traditional reward engineering and automaton-based baselines such as reward machines and LTL-guided methods. Our results highlight the advantages of automaton-based preferences in handling non-Markovian rewards, offering a scalable, efficient, and human-independent alternative to traditional reward modeling. We also provide a convergence guarantee showing that under standard assumptions our automaton-guided preference-based framework learns a policy that is near-optimal with respect to the true non-Markovian objective.
- Abstract(参考訳): 複雑で歴史に依存した報酬構造を持つ環境における強化学習(RL)は、従来の手法に重大な課題をもたらす。
本研究では,学習プロセスの指導にオートマトンに基づくフィードバックを活用する新しいアプローチを導入し,明示的な報酬関数を決定論的有限オートマトン(DFA)から派生した選好に置き換える。
直接報酬仕様にAutomaticaを用いる従来の手法とは異なり、本手法ではDFAの構造を用いて報酬関数の学習に使用される軌道よりも好みを生成するため、手動報酬工学の必要性を排除している。
本フレームワークでは、学習した報酬関数を直接利用してポリシー最適化を行う静的アプローチと、報酬関数とポリシーの反復的な更新をコンバージェンスまで継続する動的アプローチを導入している。
離散的・連続的な環境下での実験では,RLエージェントが時間的依存を伴うタスクに対する効果的なポリシーを学習することができ,従来の報酬工学や,報酬機械やLTL誘導手法などの自動ベースラインよりも優れていた。
本研究は,非マルコフ報酬の処理において,オートマトンに基づく選好の利点を強調し,従来の報酬モデルに代わる,スケーラブルで効率的で人間に依存しない代替手段を提供する。
また、標準仮定の下では、オートマトン誘導の嗜好に基づくフレームワークが、真の非マルコフ的目的に対してほぼ最適であるポリシーを学習することを示す収束保証を提供する。
関連論文リスト
- ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization [41.074747242532695]
Online Reward Selection and Policy Optimization (ORSO) は、オンラインモデル選択問題としてシェーピング報酬関数の選択を枠組みとした、新しいアプローチである。
ORSOは、整形報酬関数を評価するのに必要なデータ量を著しく削減し、データ効率と計算時間(最大8倍)の大幅な削減をもたらす。
ORSOは、従来の手法よりも50%以上優れた高品質の報酬関数を一貫して識別し、平均的にポリシーを、ドメインの専門家が手作業で設計した報酬関数を使って学んだものと同様に、パフォーマンスとして識別する。
論文 参考訳(メタデータ) (2024-10-17T17:55:05Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Model-Free Reinforcement Learning for Symbolic Automata-encoded
Objectives [0.0]
強化学習(Reinforcement Learning, RL)は、不確実な環境でのロボット経路計画において一般的な手法である。
悪い設計の報酬は、最大報酬を得るが、望ましいタスクの目的を満たすことができず、安全でないポリシーにつながる可能性がある。
本稿では,記号オートマトンを用いた形式仕様を提案する。
論文 参考訳(メタデータ) (2022-02-04T21:54:36Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。