論文の概要: FairDICE: Fairness-Driven Offline Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.08062v1
- Date: Mon, 09 Jun 2025 09:40:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.261872
- Title: FairDICE: Fairness-Driven Offline Multi-Objective Reinforcement Learning
- Title(参考訳): FairDICE: フェアネス駆動型オフライン多目的強化学習
- Authors: Woosung Kim, Jinho Lee, Jongmin Lee, Byung-Jun Lee,
- Abstract要約: 非線形福祉目的を直接最適化した最初のオフラインMORLフレームワークであるFairDICEを提案する。
複数のオフラインベンチマークで、FairDICEは既存のベースラインと比較して、フェアネスを意識したパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 13.825782649016851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-objective reinforcement learning (MORL) aims to optimize policies in the presence of conflicting objectives, where linear scalarization is commonly used to reduce vector-valued returns into scalar signals. While effective for certain preferences, this approach cannot capture fairness-oriented goals such as Nash social welfare or max-min fairness, which require nonlinear and non-additive trade-offs. Although several online algorithms have been proposed for specific fairness objectives, a unified approach for optimizing nonlinear welfare criteria in the offline setting-where learning must proceed from a fixed dataset-remains unexplored. In this work, we present FairDICE, the first offline MORL framework that directly optimizes nonlinear welfare objective. FairDICE leverages distribution correction estimation to jointly account for welfare maximization and distributional regularization, enabling stable and sample-efficient learning without requiring explicit preference weights or exhaustive weight search. Across multiple offline benchmarks, FairDICE demonstrates strong fairness-aware performance compared to existing baselines.
- Abstract(参考訳): 多目的強化学習(MORL)は、線形スカラー化によってベクトル値のリターンをスカラー信号に還元する、競合対象の存在下でのポリシーを最適化することを目的としている。
特定の選好に有効であるが、このアプローチは、非線形かつ非付加的なトレードオフを必要とするナッシュ社会福祉や最大ミンフェアネスのような公正志向の目標を捉えることはできない。
特定の公正な目的のためにいくつかのオンラインアルゴリズムが提案されているが、オフライン環境での学習において非線形福祉基準を最適化するための統一的なアプローチは、未探索のデータセットから進めなければならない。
本稿では,非線形福祉目的を直接最適化する初のオフラインMORLフレームワークであるFairDICEを紹介する。
FairDICEは、分布推定を利用して、福祉の最大化と分布の正規化を共同で考慮し、明示的な優先重み付けや徹底的な重み付けを必要とせず、安定的でサンプル効率のよい学習を可能にする。
複数のオフラインベンチマークで、FairDICEは既存のベースラインと比較して、フェアネスを意識したパフォーマンスを示している。
関連論文リスト
- Generalized Linear Markov Decision Process [9.219628236765933]
一般化線形モデル(GLM)を用いた一般化線形MDP(GLMDP)フレームワークモデル報酬
一般化悲観的値イテレーション(GPEVI)と半教師付き変種(SS-GPEVI)の2つのオフラインRLアルゴリズムを開発した。
提案アルゴリズムは,政策準最適性に関する理論的保証を達成し,報酬ラベルが高価あるいは制限された設定におけるサンプル効率の向上を実証する。
論文 参考訳(メタデータ) (2025-06-01T03:50:41Z) - LEASE: Offline Preference-based Reinforcement Learning with High Sample Efficiency [11.295036269748731]
本稿では、ラベルなしの嗜好データを生成するために、高サンプル効率(LEASE)アルゴリズムを用いたoffLine prEference-bAsed RLを提案する。
事前学習した報奨モデルがラベルのないデータに対して誤ったラベルを生成する可能性があることを考慮し、報奨モデルの性能を確保するための不確実性を考慮したメカニズムを設計する。
論文 参考訳(メタデータ) (2024-12-30T15:10:57Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Goal-conditioned Offline Reinforcement Learning through State Space Partitioning [9.38848713730931]
オフライン強化学習(RL)は、オフラインデータセットのみを使用してシーケンシャルな決定ポリシーを推論することを目的としている。
我々は,その利点にもかかわらず,分散シフトやマルチモダリティ問題を完全に解決するには,このアプローチは依然として不十分である,と論じる。
本稿では,帰納的バイアスの新たな源となる相補的優位性に基づく重み付け手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T14:52:53Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。