論文の概要: Multi-objective Reinforcement Learning With Augmented States Requires Rewards After Deployment
- arxiv url: http://arxiv.org/abs/2604.15757v1
- Date: Fri, 17 Apr 2026 07:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.776885
- Title: Multi-objective Reinforcement Learning With Augmented States Requires Rewards After Deployment
- Title(参考訳): 強化状態による多目的強化学習は、デプロイ後にリワードを必要とする
- Authors: Peter Vamplew, Cameron Foale,
- Abstract要約: 本研究ノートは,多目的強化学習(MORL)と単目的強化学習(RL)との相違点について述べる。
その理由を説明し、この要件の実践的な反響を考察する。
- 参考スコア(独自算出の注目度): 3.257588368172818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research note identifies a previously overlooked distinction between multi-objective reinforcement learning (MORL), and more conventional single-objective reinforcement learning (RL). It has previously been noted that the optimal policy for an MORL agent with a non-linear utility function is required to be conditioned on both the current environmental state and on some measure of the previously accrued reward. This is generally implemented by concatenating the observed state of the environment with the discounted sum of previous rewards to create an augmented state. While augmented states have been widely-used in the MORL literature, one implication of their use has not previously been reported -- namely that they require the agent to have continued access to the reward signal (or a proxy thereof) after deployment, even if no further learning is required. This note explains why this is the case, and considers the practical repercussions of this requirement.
- Abstract(参考訳): 本研究ノートは,MORL(Multi-objective reinforcement learning)と従来の単目的強化学習(RL)との相違について述べる。
従来, 非線形効用機能を有するMORLエージェントの最適政策は, 現在の環境状態と, 以前獲得した報酬の指標の両方で条件付けする必要があることが指摘されてきた。
これは一般に、環境の観測状態と、前回の報酬の割引金額を連結して拡張状態を作成することで実装される。
拡張状態は、MORLの文献で広く使われているが、その使用の1つの意味は報告されていない。つまり、エージェントは、たとえそれ以上の学習が不要であっても、デプロイ後に報酬信号(またはそのプロキシ)へのアクセスを継続する必要がある。
このノートは、これがなぜであるのかを説明し、この要件の実践的な反響を考察する。
関連論文リスト
- Regularized Latent Dynamics Prediction is a Strong Baseline For Behavioral Foundation Models [35.088440282359024]
行動基礎モデル(BFM)は、未知の報酬やタスクに適応する能力を持つエージェントを生成する。
これらの手法は、既存の状態特徴の範囲内にある報酬関数に対して、ほぼ最適にポリシーを作成できるのみである。
本稿では,ゼロショットRLに対して,最先端の複雑な表現学習手法に適合または超越可能なRLDP(Regularized Latent Dynamics Prediction)を提案する。
論文 参考訳(メタデータ) (2026-03-16T19:39:27Z) - Model-Based Reinforcement Learning Under Confounding [3.5690236380446163]
文脈的マルコフ決定過程 (C-MDP) におけるモデルに基づく強化学習について検討し, 文脈が観測されず, オフラインデータセットのコンバウンディングを誘導する。
本研究では,代用変数の軽度可逆条件下での観測可能な状態-反応-逆軌道のみを用いて,共起型報酬期待を識別する近位オフポリシー評価手法を適用した。
提案した定式化により,コンテキスト情報が観測できない,利用できない,収集が不可能な,統合された環境下でのモデル学習と計画が可能である。
論文 参考訳(メタデータ) (2025-12-08T13:02:00Z) - Reinforcement Learning via Implicit Imitation Guidance [49.88208134736617]
自然なアプローチは、訓練中の正規化や参照ポリシーの取得など、模倣学習の目的を取り入れることである。
提案手法では,条件に付加されたノイズによる探索を導出するための先行データのみを用いて,明示的な行動クローニング制約の必要性を回避することを提案する。
提案手法は、7つの模擬連続制御タスクにまたがるオフライン手法による事前強化学習よりも最大2~3倍向上する。
論文 参考訳(メタデータ) (2025-06-09T07:32:52Z) - Reinforcement Learning with Lookahead Information [7.696213902533885]
エージェントが報酬や移行の実現を現在の状態で観察し、どの行動をとるかを決定するという強化学習問題について検討する。
これまでの研究は、このルックアヘッド情報が収集された報酬を大幅に増加させることを示している。
我々は、ルックアヘッド情報を組み込むことができる確率効率の高い学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-06-04T12:29:51Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - A State Representation for Diminishing Rewards [20.945260614372327]
マルチタスク強化学習(RL)における一般的な設定は、エージェントが固定分布からランダムにサンプリングされた様々な定常報酬関数に迅速に適応することを要求する。
自然界では、シーケンシャルなタスクは滅多に独立せず、代わりに報酬刺激の可利用性と主観的な認識に基づいて優先順位を変えることを反映している。
我々は、この設定でポリシー評価に必要とされる$lambda$ representation(lambda$R)を紹介します。
論文 参考訳(メタデータ) (2023-09-07T13:38:36Z) - Large-scale Pre-trained Models are Surprisingly Strong in Incremental Novel Class Discovery [76.63807209414789]
我々は,クラスiNCDにおける現状問題に挑戦し,クラス発見を継続的に,真に教師なしで行う学習パラダイムを提案する。
凍結したPTMバックボーンと学習可能な線形分類器から構成される単純なベースラインを提案する。
論文 参考訳(メタデータ) (2023-03-28T13:47:16Z) - Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。
異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文 参考訳(メタデータ) (2022-12-19T23:45:05Z) - Concurrent Credit Assignment for Data-efficient Reinforcement Learning [0.0]
状態と行動空間を広くサンプリングする能力は、効果的な強化学習アルゴリズムを構築する上で重要な要素である。
占有モデルは、探査が進むにつれて頻繁に更新される。
その結果, サンプリングの有効性は有意に向上し, トレーニング時間を短縮し, より高いリターンが得られた。
論文 参考訳(メタデータ) (2022-05-24T12:11:34Z) - Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。