論文の概要: [Re] FairDICE: A Gap Between Theory And Practice
- arxiv url: http://arxiv.org/abs/2603.03454v1
- Date: Tue, 03 Mar 2026 19:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.059527
- Title: [Re] FairDICE: A Gap Between Theory And Practice
- Title(参考訳): FairDICE:理論と実践のギャップ
- Authors: Peter Adema, Karim Galliamov, Aleksey Evstratovskiy, Ross Geurts,
- Abstract要約: FairDICEは複雑な環境や高次元の報酬にスケール可能であることを示す。
FairDICEは理論的に興味深い手法であるが、実験的な正当化には重大な修正が必要であると結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline Reinforcement Learning (RL) is an emerging field of RL in which policies are learned solely from demonstrations. Within offline RL, some environments involve balancing multiple objectives, but existing multi-objective offline RL algorithms do not provide an efficient way to find a fair compromise. FairDICE (see arXiv:2506.08062v2) seeks to fill this gap by adapting OptiDICE (an offline RL algorithm) to automatically learn weights for multiple objectives to e.g.\ incentivise fairness among objectives. As this would be a valuable contribution, this replication study examines the replicability of claims made regarding FairDICE. We find that many theoretical claims hold, but an error in the code reduces FairDICE to standard behaviour cloning in continuous environments, and many important hyperparameters were originally underspecified. After rectifying this, we show in experiments extending the original paper that FairDICE can scale to complex environments and high-dimensional rewards, though it can be reliant on (online) hyperparameter tuning. We conclude that FairDICE is a theoretically interesting method, but the experimental justification requires significant revision.
- Abstract(参考訳): オフライン強化学習(英語: Offline Reinforcement Learning, RL)は、RLの新たな分野である。
オフラインRLでは、複数の目的のバランスをとる環境もあるが、既存の複数目的のオフラインRLアルゴリズムは、公正な妥協を見つけるための効率的な方法を提供していない。
FairDICE (arXiv:2506.08062v2) は、OptiDICE (オフラインRLアルゴリズム) を適用し、複数の目的に対する重み付けを自動的に学習し、目的間の公正さを動機付けることで、このギャップを埋めようとしている。
これは貴重な貢献となるため、この複製研究では、FairDICEに関する請求の複製可能性について検討する。
多くの理論的な主張が成り立つが、符号の誤りにより、FairDICEは連続環境における標準的な行動クローニングに還元され、多くの重要なハイパーパラメータはもともとは不特定であった。
これを修正した後、FairDICEが複雑な環境や高次元の報酬にスケールできるという元の論文を拡張した実験で示します。
FairDICEは理論的に興味深い手法であるが、実験的な正当化には重大な修正が必要であると結論付けている。
関連論文リスト
- When Are RL Hyperparameters Benign? A Study in Offline Goal-Conditioned RL [9.430246534202857]
オフラインDeep Reinforcement Learning(RL)におけるハイパーパラメータ構成の変化に対するロバストさを観察する。
トレーニング中のハイパーパラメータ構成の変化に対する高い感度は、RLでは必然ではなく、ブートストラップのダイナミクスによって増幅される。
これらの結果は、トレーニング中のハイパーパラメータ構成の変化に対する高い感度は、RLでは必然ではなく、ブートストラップのダイナミクスによって増幅されることを示唆している。
論文 参考訳(メタデータ) (2026-02-05T09:08:17Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Dual RL: Unification and New Methods for Reinforcement and Imitation
Learning [26.59374102005998]
我々はまず,共有構造を持つ2つのRLアプローチのインスタンスとして,最先端のオフラインRLとオフライン模倣学習(IL)アルゴリズムをいくつか導入した。
本稿では、任意のオフポリシーデータから模倣を学習し、ほぼ専門的な性能を得る新しい差別化手法であるReCOILを提案する。
オフラインRLでは、最近のオフラインRLメソッドXQLをデュアルフレームワークにフレーム化し、Gumbel回帰損失に対して代替的な選択肢を提供する新しい方法f-DVLを提案する。
論文 参考訳(メタデータ) (2023-02-16T20:10:06Z) - Survey on Fair Reinforcement Learning: Theory and Practice [9.783469272270896]
本稿では、強化学習(RL)フレームワークを用いて実装されたフェアネスアプローチについて概観する。
本稿では,RL法を適用した様々な実用的応用について論じる。
フェアRLの分野を前進させるために検討すべき主要な課題をいくつか取り上げる。
論文 参考訳(メタデータ) (2022-05-20T09:07:28Z) - Challenging Common Assumptions in Convex Reinforcement Learning [34.739021482682176]
実際の有限公試の代わりに無限公試の目的を誤って最適化することは、通常行われているように、かなりの近似誤差をもたらす可能性があることを示す。
我々はこの問題に光を当てることで、凸RLのより良いアプローチと方法論がもたらされると考えている。
論文 参考訳(メタデータ) (2022-02-03T10:47:10Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。