論文の概要: Reward-Aware Proto-Representations in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.16217v1
- Date: Thu, 22 May 2025 04:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.03913
- Title: Reward-Aware Proto-Representations in Reinforcement Learning
- Title(参考訳): 強化学習におけるReward-Aware Proto-Representations
- Authors: Hon Tik Tse, Siddarth Chandrasekar, Marlos C. Machado,
- Abstract要約: 近年では、後継表現(SR)が強化学習(RL)において注目を集めている。
本稿では,この問題の報酬力学を考慮に入れた類似表現について論じる。
以上の結果から,SRと比較すると,DRは質的に異なる,報酬に敏感な動作を示し,いくつかの設定において定量的に優れた性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 6.855996110012974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the successor representation (SR) has attracted increasing attention in reinforcement learning (RL), and it has been used to address some of its key challenges, such as exploration, credit assignment, and generalization. The SR can be seen as representing the underlying credit assignment structure of the environment by implicitly encoding its induced transition dynamics. However, the SR is reward-agnostic. In this paper, we discuss a similar representation that also takes into account the reward dynamics of the problem. We study the default representation (DR), a recently proposed representation with limited theoretical (and empirical) analysis. Here, we lay some of the theoretical foundation underlying the DR in the tabular case by (1) deriving dynamic programming and (2) temporal-difference methods to learn the DR, (3) characterizing the basis for the vector space of the DR, and (4) formally extending the DR to the function approximation case through default features. Empirically, we analyze the benefits of the DR in many of the settings in which the SR has been applied, including (1) reward shaping, (2) option discovery, (3) exploration, and (4) transfer learning. Our results show that, compared to the SR, the DR gives rise to qualitatively different, reward-aware behaviour and quantitatively better performance in several settings.
- Abstract(参考訳): 近年、後継表現 (SR) は強化学習 (RL) に注目が集まり、探索、信用割当、一般化といった重要な課題に対処するために用いられている。
SRは、その誘起遷移ダイナミクスを暗黙的に符号化することで、環境の基盤となる信用代入構造を表すと見なすことができる。
しかし、SRは報酬に依存しない。
本稿では,この問題の報酬力学を考慮に入れた類似表現について論じる。
本稿では,理論的(および経験的)分析に限定した,最近提案された既定表現(DR)について検討する。
ここでは, 表形式の場合において, 1) 動的プログラミングの導出と(2) DRを学習するための時間差分法,(3) DRのベクトル空間の基底を特徴付けること,(4) DRを関数近似の場合へデフォルトで拡張することによって, DRの基盤となる理論的基礎を配置する。
本研究では,(1)報酬形成,(2)オプション発見,(3)探索,(4)伝達学習など,SRが適用された多くの環境において,DRのメリットを実証的に分析する。
以上の結果から,SRと比較すると,DRは質的に異なる,報酬に敏感な動作を示し,いくつかの設定において定量的に優れた性能を示すことがわかった。
関連論文リスト
- RE-TRIP : Reflectivity Instance Augmented Triangle Descriptor for 3D Place Recognition [14.095215136905553]
本稿では,RE-TRIPという3次元位置認識のための新しい記述子を提案する。
この新しいディスクリプタは、幾何計測と反射率の両方を活用して堅牢性を高める。
本稿では,RE-TRIPの有効性を示す一連の実験を行った。
論文 参考訳(メタデータ) (2025-05-22T03:11:30Z) - Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z) - Out-of-Domain Generalization in Dynamical Systems Reconstruction [8.397468572544614]
DSRの一般化に対処する形式的なフレームワークを提供する。
ブラックボックス DL 技術は,十分な構造的先行性を持たず,一般に一般化された DSR モデルを学ぶことができないことを示す。
論文 参考訳(メタデータ) (2024-02-28T14:52:58Z) - Explainable Session-based Recommendation via Path Reasoning [27.205463326317656]
本稿では,既存のSRモデルのパス推論による説明可能性,すなわちPR4SRに関する階層的強化学習フレームワークを提案する。
セッションにおける項目の重要性を考慮し、セッション内の項目を経路推論の出発点として選択するセッションレベルエージェントと、経路推論を行うパスレベルエージェントを設計する。
特に、SRにおける逐次パターンのスキップ動作に適応する多目的報酬機構を設計し、知識グラフの探索効率を高めるために経路中点報酬を導入する。
論文 参考訳(メタデータ) (2024-02-28T12:11:08Z) - Single-Reset Divide & Conquer Imitation Learning [49.87201678501027]
デモはDeep Reinforcement Learningアルゴリズムの学習プロセスを高速化するために一般的に使用される。
いくつかのアルゴリズムは1つのデモンストレーションから学習するために開発されている。
論文 参考訳(メタデータ) (2024-02-14T17:59:47Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。