論文の概要: Reward Distance Comparisons Under Transition Sparsity
- arxiv url: http://arxiv.org/abs/2504.11508v1
- Date: Tue, 15 Apr 2025 09:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:02.816694
- Title: Reward Distance Comparisons Under Transition Sparsity
- Title(参考訳): 遷移空間下における逆距離比較
- Authors: Clement Nyanhongo, Bruno Miranda Henrique, Eugene Santos,
- Abstract要約: 多様なサンプル分布に対応するように設計されたSparsity Resilient Reward Distance (SRRD) 擬似測定器。
本稿では,高遷移カバレッジの必要をなくすために,Sparsity Resilient Reward Distance (SRRD) を擬似的に導入する。
- 参考スコア(独自算出の注目度): 0.674975004449773
- License:
- Abstract: Reward comparisons are vital for evaluating differences in agent behaviors induced by a set of reward functions. Most conventional techniques utilize the input reward functions to learn optimized policies, which are then used to compare agent behaviors. However, learning these policies can be computationally expensive and can also raise safety concerns. Direct reward comparison techniques obviate policy learning but suffer from transition sparsity, where only a small subset of transitions are sampled due to data collection challenges and feasibility constraints. Existing state-of-the-art direct reward comparison methods are ill-suited for these sparse conditions since they require high transition coverage, where the majority of transitions from a given coverage distribution are sampled. When this requirement is not satisfied, a distribution mismatch between sampled and expected transitions can occur, leading to significant errors. This paper introduces the Sparsity Resilient Reward Distance (SRRD) pseudometric, designed to eliminate the need for high transition coverage by accommodating diverse sample distributions, which are common under transition sparsity. We provide theoretical justification for SRRD's robustness and conduct experiments to demonstrate its practical efficacy across multiple domains.
- Abstract(参考訳): 報酬関数の集合によって引き起こされるエージェントの挙動の違いを評価するためには、逆比較が不可欠である。
従来の手法では、入力報酬関数を用いて最適化されたポリシーを学習し、エージェントの振る舞いを比較するのに使用される。
しかし、これらのポリシーの学習は計算に費用がかかり、安全性の懸念も持ち上がる。
直接的な報酬比較技術は、ポリシー学習を妨げるが、データ収集の課題と実現可能性の制約のために、移行のごく一部しかサンプル化されない移行スペシャリティに悩まされる。
既存の直接報酬比較法は, 所与のカバレッジ分布からの遷移の大半をサンプリングする場合, 高い遷移カバレッジを必要とするため, スパース条件に不適である。
この要求が満たされない場合、サンプルと期待される遷移の間の分布ミスマッチが発生し、重大なエラーが発生する。
本稿では,遷移空間下でよく見られる多種多様なサンプル分布を収容することで,高い遷移カバレッジを不要にするため,Sparsity Resilient Reward Distance(SRRD)を擬似的に導入する。
SRRDのロバスト性を理論的に正当化し、複数の領域にまたがる実効性を実証する実験を行う。
関連論文リスト
- CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep Reinforcement Learning Algorithms [5.331052581441265]
我々は,他のすべての経験の公平性を考慮しつつ,記憶された経験をサンプリングする新しいアルゴリズム,Corrected Uniform Experience (CUER) を開発した。
CUERは、トレーニング中のポリシーのサンプル効率、最終的なパフォーマンス、安定性の観点から、非政治的な継続的制御アルゴリズムに有望な改善を提供する。
論文 参考訳(メタデータ) (2024-06-13T12:03:40Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Supervised Contrastive Learning with Heterogeneous Similarity for
Distribution Shifts [3.7819322027528113]
本稿では,教師付きコントラスト学習を用いた新たな正規化手法を提案する。
サブポピュレーションシフトや領域一般化などの分布シフトをエミュレートするベンチマークデータセットの実験は,提案手法の利点を実証している。
論文 参考訳(メタデータ) (2023-04-07T01:45:09Z) - Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement
Learning [44.50394347326546]
多段階リターンからのオフ政治学習は、サンプル効率の強化学習に不可欠である。
オフ政治バイアスは、決定ごとに修正されるが、トレースが完全にカットされると、その効果は逆転できない。
本稿では,多段階演算子を提案する。
論文 参考訳(メタデータ) (2023-01-26T18:57:41Z) - Using Contrastive Samples for Identifying and Leveraging Possible Causal
Relationships in Reinforcement Learning [4.924126492174801]
そこで本稿では,後続の報酬に異常に大きな変動がある状態において,遷移と大きなずれを関連付ける手法を提案する。
このような遷移は因果効果としてマークされ、対応する状態-作用対が別のリプレイバッファに追加される。
我々は、CERが、あらゆる非政治強化学習アルゴリズムを含む幅広い学習タスクに有用であると信じている。
論文 参考訳(メタデータ) (2022-10-28T11:21:17Z) - Why Do Self-Supervised Models Transfer? Investigating the Impact of
Invariance on Downstream Tasks [79.13089902898848]
自己教師付き学習は、非競合画像上での表現学習の強力なパラダイムである。
コンピュータビジョンにおける異なるタスクは、異なる(不変の)分散を符号化する機能を必要とすることを示す。
論文 参考訳(メタデータ) (2021-11-22T18:16:35Z) - Frustratingly Easy Transferability Estimation [64.42879325144439]
本稿では,TransRate という,シンプルで効率的かつ効果的な転送可能性尺度を提案する。
TransRateは、事前訓練されたモデルによって抽出された対象サンプルの特徴とそれらのラベルとの間の相互情報として、転送可能性を測定する。
10行のコードで並外れた単純さにもかかわらず、TransRateは、22の事前訓練されたモデルと16のダウンストリームタスクに対する広範囲な評価において、非常にうまく機能している。
論文 参考訳(メタデータ) (2021-06-17T10:27:52Z) - Comparing Probability Distributions with Conditional Transport [63.11403041984197]
新しい発散として条件輸送(CT)を提案し、償却されたCT(ACT)コストと近似します。
ACTは条件付き輸送計画の計算を補正し、計算が容易な非バイアスのサンプル勾配を持つ。
さまざまなベンチマークデータセットのジェネレーティブモデリングでは、既存のジェネレーティブ敵対ネットワークのデフォルトの統計距離をACTに置き換えることで、一貫してパフォーマンスを向上させることが示されています。
論文 参考訳(メタデータ) (2020-12-28T05:14:22Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z) - How Transferable are the Representations Learned by Deep Q Agents? [13.740174266824532]
我々は、Deep Reinforcement Learningのサンプル複雑さの源泉について考察する。
我々は、移行学習の利点を、ゼロからポリシーを学ぶことと比較する。
転送による利点は、一般に非常に可変であり、タスクのペア間で非対称である。
論文 参考訳(メタデータ) (2020-02-24T00:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。