論文の概要: Hindsight Preference Replay Improves Preference-Conditioned Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.11604v1
- Date: Thu, 08 Jan 2026 18:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.782575
- Title: Hindsight Preference Replay Improves Preference-Conditioned Multi-Objective Reinforcement Learning
- Title(参考訳): Hindsight Preference Replayは、参照記述型多目的強化学習を改善する
- Authors: Jonaid Shianifar, Michael Schukat, Karl Mason,
- Abstract要約: Hindsight Preference (HPR) は、リプレイの強化戦略であり、保存された遷移を代替の優先順位で遡及的にリラベルする。
我々は,6つのMO-Gymnasiumロコモーションタスクに対するHPR-CAPQLを,期待ユーティリティ(EUM),ハイパーボリューム(HV),空間性を用いて,30000ステップの予算で評価した。
HPR-CAPQLは6つの環境のうち5つでHVを改善し、6つのうち4つでEUMを改善し、統計的に強力なサポートを提供する。
- 参考スコア(独自算出の注目度): 1.299941371793082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-objective reinforcement learning (MORL) enables agents to optimize vector-valued rewards while respecting user preferences. CAPQL, a preference-conditioned actor-critic method, achieves this by conditioning on weight vectors w and restricts data usage to the specific preferences under which it was collected, leaving off-policy data from other preferences unused. We introduce Hindsight Preference Replay (HPR), a simple and general replay augmentation strategy that retroactively relabels stored transitions with alternative preferences. This densifies supervision across the preference simplex without altering the CAPQL architecture or loss functions. Evaluated on six MO-Gymnasium locomotion tasks at a fixed 300000-step budget using expected utility (EUM), hypervolume (HV), and sparsity, HPR-CAPQL improves HV in five of six environments and EUM in four of six. On mo-humanoid-v5, for instance, EUM rises from $323\!\pm\!125$ to $1613\!\pm\!464$ and HV from 0.52M to 9.63M, with strong statistical support. mo-halfcheetah-v5 remains a challenging exception where CAPQL attains higher HV at comparable EUM. We report final summaries and Pareto-front visualizations across all tasks.
- Abstract(参考訳): マルチオブジェクト強化学習(MORL)により、エージェントはユーザの好みを尊重しながらベクトル値の報酬を最適化できる。
選好条件付きアクタークリティカルな方法であるCAPQLは、重みベクトルwを条件付けして、収集した特定の選好にデータ使用を制限し、他の選好から外れたデータを残すことで、これを実現している。
HPR(Hindsight Preference Replay)は,保存された遷移を遡及的にリラベルする,シンプルで汎用的なリプレイ拡張戦略である。
これにより、CAPQLアーキテクチャやロス関数を変更することなく、選好のシンプルさによる監視が強化される。
期待ユーティリティ(EUM)、ハイパーボリューム(HV)、空間性を用いて、固定された300000ステップの予算で6つのMO-Gymnasiumロコモーションタスクを評価することで、HPR-CAPQLは6つの環境のうち5つの環境でHVを改善し、6つのうち4つはEUMを改善している。
例えば、mo- Humanoid-v5では、EUMは323ドルから上昇する。
さよなら!
125ドルから1613ドル!
さよなら!
464$とHVは0.52Mから9.63Mまで、強い統計的支持を得た。
mo-halfcheetah-v5は、CAPQLが同等のEUMで高いHVを達成するという難しい例外である。
すべてのタスクについて、最終要約とPareto-frontビジュアライゼーションを報告します。
関連論文リスト
- Benchmarking Offline Multi-Objective Reinforcement Learning in Critical Care [0.07161783472741748]
批判的なケア環境では、臨床医は競合する目標のバランスをとることの難しさに直面し、主に患者の生存を最大化し、資源利用を最小化する。
単目的強化学習のアプローチは通常、固定されたスカラー化された報酬関数を最適化することでこの問題に対処する。
本稿では,MIMIC-IVデータセット上の3つの単目的ベースラインに対して,3つのオフラインMORLアルゴリズムをベンチマークする。
論文 参考訳(メタデータ) (2025-12-08T20:09:15Z) - Multidimensional Bayesian Active Machine Learning of Working Memory Task Performance [4.8878998002743606]
作業記憶再構築作業におけるベイズ的2軸能動的分類手法の有効性を示す。
若年者におけるGP駆動適応モード(AM)と従来の適応階段古典モード(CM)を比較した。
AM推定は他のサンプリング手法よりも早く収束し、完全なモデルの正確な適合には30のサンプルしか必要としないことを示した。
論文 参考訳(メタデータ) (2025-10-01T00:48:14Z) - Reverse Preference Optimization for Complex Instruction Following [61.39734201711077]
本稿では,Reverse Preference Optimization (RPO) という,シンプルで効果的な手法を提案する。
選択された応答が完璧であることを保証するために、命令内の制約を動的に反転させることで、優先ペアのノイズを緩和する。
RPOはモデルサイズで効果的にスケールし、70B RPOモデルはGPT-4oを超える。
論文 参考訳(メタデータ) (2025-05-28T09:44:27Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - META-STORM: Generalized Fully-Adaptive Variance Reduced SGD for
Unbounded Functions [23.746620619512573]
最近の研究は「メガバッチ」の勾配を計算する効果を克服している
作業は、競争力のあるディープラーニングタスクで更新された後に広く使用される。
論文 参考訳(メタデータ) (2022-09-29T15:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。