論文の概要: Closing the Intent-to-Behavior Gap via Fulfillment Priority Logic
- arxiv url: http://arxiv.org/abs/2503.05818v2
- Date: Sat, 22 Mar 2025 04:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:28:40.752179
- Title: Closing the Intent-to-Behavior Gap via Fulfillment Priority Logic
- Title(参考訳): Fulfillment Priority Logic を用いたIntent-to-Behavior Gap のクローズ
- Authors: Bassel El Mabsout, Abdelrahman AbdelGawad, Renato Mancuso,
- Abstract要約: 本稿では,FPL(Fulfillment Priority Logic)を構築する目的達成の概念について述べる。
われわれの新しいバランスポリシー勾配アルゴリズムは、FPL仕様を利用して、ソフトアクター批評家と比較して最大500%のサンプル効率を達成する。
- 参考スコア(独自算出の注目度): 1.4542411354617986
- License:
- Abstract: Practitioners designing reinforcement learning policies face a fundamental challenge: translating intended behavioral objectives into representative reward functions. This challenge stems from behavioral intent requiring simultaneous achievement of multiple competing objectives, typically addressed through labor-intensive linear reward composition that yields brittle results. Consider the ubiquitous robotics scenario where performance maximization directly conflicts with energy conservation. Such competitive dynamics are resistant to simple linear reward combinations. In this paper, we present the concept of objective fulfillment upon which we build Fulfillment Priority Logic (FPL). FPL allows practitioners to define logical formula representing their intentions and priorities within multi-objective reinforcement learning. Our novel Balanced Policy Gradient algorithm leverages FPL specifications to achieve up to 500\% better sample efficiency compared to Soft Actor Critic. Notably, this work constitutes the first implementation of non-linear utility scalarization design, specifically for continuous control problems.
- Abstract(参考訳): 強化学習政策を設計する実践者は、意図した行動目標を代表報酬関数に変換するという根本的な課題に直面している。
この課題は、複数の競合対象の同時達成を必要とする行動意図に起因している。
パフォーマンスの最大化がエネルギー保存と直接競合するユビキタスなロボティクスシナリオを考える。
このような競合力学は単純な線形報酬結合に耐性がある。
本稿では,FPL(Fulfillment Priority Logic)を構築する目的達成の概念について述べる。
FPLは、多目的強化学習において、実践者が意図と優先順位を表す論理式を定義することを可能にする。
本アルゴリズムはFPL仕様を利用して,ソフトアクタ批判と比較して最大500倍のサンプル効率を実現する。
特に、この研究は、特に連続制御問題に対する非線形ユーティリティスカラー化設計の最初の実装である。
関連論文リスト
- Curriculum-based Sample Efficient Reinforcement Learning for Robust Stabilization of a Quadrotor [3.932152385564876]
本稿では,Quadrotor用の頑健な安定化コントローラを開発するためのカリキュラム学習手法を紹介する。
学習の目的は、ランダムな初期条件から望ましい位置を達成することである。
過渡的かつ定常的な性能仕様を取り入れた新たな付加的報酬関数を提案する。
論文 参考訳(メタデータ) (2025-01-30T17:05:32Z) - Constraints as Rewards: Reinforcement Learning for Robots without Reward Functions [0.0]
強化学習は複雑なロボット行動を生成するための重要なアルゴリズムとなっている。
このような振る舞いを学習するには、タスクを記述する報酬関数を設計する必要がある。
本稿では,CaR(Constraints as Rewards)の概念を提案する。
論文 参考訳(メタデータ) (2025-01-08T01:59:47Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Multi-Objective Reinforcement Learning-based Approach for Pressurized Water Reactor Optimization [0.0]
PEARLは、従来のポリシーに基づく多目的強化学習法とを、単一のポリシーを学習することで区別する。
ディープラーニングと進化的テクニックにインスパイアされたいくつかのバージョンが作成され、制約のない問題ドメインと制約のない問題ドメインの両方に対応している。
2つの実用的PWRコアローディングパターン最適化問題を用いて実世界の応用性を実証した。
論文 参考訳(メタデータ) (2023-12-15T20:41:09Z) - Reinforcement Learning with Non-Cumulative Objective [12.906500431427716]
強化学習では、その目的は、ほぼ常にプロセスに沿った報酬に対する累積関数として定義される。
本稿では,そのような目的を最適化するための既存アルゴリズムの修正を提案する。
論文 参考訳(メタデータ) (2023-07-11T01:20:09Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - From STL Rulebooks to Rewards [4.859570041295978]
本稿では,多目的の強化学習のための報酬形成のための原則的アプローチを提案する。
まずSTLに新しい定量的セマンティクスを組み、個々の要求を自動的に評価する。
次に,複数の要件の評価を1つの報酬に体系的に組み合わせる手法を開発した。
論文 参考訳(メタデータ) (2021-10-06T14:16:59Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。