Fugu-MT 論文翻訳(概要): Towards Off-Policy Reinforcement Learning for Ranking Policies with Human Feedback

論文の概要: Towards Off-Policy Reinforcement Learning for Ranking Policies with Human Feedback

arxiv url: http://arxiv.org/abs/2401.08959v1
Date: Wed, 17 Jan 2024 04:19:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 16:58:24.269537
Title: Towards Off-Policy Reinforcement Learning for Ranking Policies with Human Feedback
Title（参考訳）: 人的フィードバックによるランク付け政策の非政策強化学習に向けて
Authors: Teng Xiao, Suhang Wang
Abstract要約: 本稿では,ユーザの長期報酬を同時に最大化し,オフラインでランキングを最適化する,新たなオフ政治価値ランキング(VR)アルゴリズムを提案する。 EMプロセスは、将来の報酬とランキング基準の統合の恩恵を享受し、オンラインインタラクションなしで学習するために、リーンポリシーを導いてくれる。
参考スコア（独自算出の注目度）: 47.03475305565384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Probabilistic learning to rank (LTR) has been the dominating approach for optimizing the ranking metric, but cannot maximize long-term rewards. Reinforcement learning models have been proposed to maximize user long-term rewards by formulating the recommendation as a sequential decision-making problem, but could only achieve inferior accuracy compared to LTR counterparts, primarily due to the lack of online interactions and the characteristics of ranking. In this paper, we propose a new off-policy value ranking (VR) algorithm that can simultaneously maximize user long-term rewards and optimize the ranking metric offline for improved sample efficiency in a unified Expectation-Maximization (EM) framework. We theoretically and empirically show that the EM process guides the leaned policy to enjoy the benefit of integration of the future reward and ranking metric, and learn without any online interactions. Extensive offline and online experiments demonstrate the effectiveness of our methods.
Abstract（参考訳）: ランク付けのための確率論的学習(LTR)は、ランク付け基準を最適化するための支配的なアプローチであるが、長期的な報酬を最大化することはできない。逐次的な意思決定問題として推奨を定式化することで,ユーザの長期報酬を最大化する強化学習モデルが提案されているが,オンラインインタラクションの欠如やランキングの特徴から,LTRに比べて精度が劣っている。本稿では,ユーザの長期報酬を同時に最大化し,評価基準をオフラインに最適化し,統一期待値最大化(EM)フレームワークでサンプル効率を向上させるための新しいオフポリチック値ランキング(VR)アルゴリズムを提案する。理論的および実証的に、emプロセスがリーンポリシーを導くことによって、将来の報酬とランク付け指標の統合のメリットを享受し、オンラインインタラクションなしで学習できることを示します。大規模なオフラインおよびオンライン実験により,本手法の有効性が示された。

関連論文リスト

Bridging Offline and Online Reinforcement Learning for LLMs [71.48552761763158]
オフラインから半オンラインに移行する際の大規模言語モデルの微調整における強化学習手法の有効性について検討する。実験では、検証可能な数学のトレーニングに加えて、検証不可能な教育のトレーニングと、両方のベンチマーク評価のセットについて取り上げている。
論文参考訳（メタデータ） (2025-06-26T17:25:49Z)
Online Knowledge Distillation with Reward Guidance [3.9160947065896803]
本研究は,大規模言語モデル(LLM)に対する知識蒸留(KD)を優先最適化により研究する。本稿では,学生と教師の政策間のパフォーマンスギャップを最小限に抑えるために,政策と報酬モデル(RM)間のmin-max最適化問題を定式化した,シーケンシャルKDのための報酬誘導型模倣学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-25T02:56:18Z)
Value Function Decomposition in Markov Recommendation Process [19.082512423102855]
本稿では,レコメンダ性能を向上させるためのオンライン強化学習フレームワークを提案する。これらの2つの因子は、元の時間差損失を分解することで、別々に近似できることを示す。アンタングル学習フレームワークは、より高速な学習と、アクション探索に対する堅牢性の向上により、より正確な推定を実現することができる。
論文参考訳（メタデータ） (2025-01-29T04:22:29Z)
ChainRank-DPO: Chain Rank Direct Preference Optimization for LLM Rankers [22.51924253176532]
大規模言語モデル(LLM)は、RangeGPTのような作品を通してテキストのランク付けにおいて顕著な効果を示している。ランク付けのための微調整の監督は、これらのモデルの汎用能力を低下させる。そこで本稿では,SFT-DPOパイプラインを用いたChain-of-Thoughtの導入により,これらの機能を維持しつつ,ランキング性能を向上する手法を提案する。
論文参考訳（メタデータ） (2024-12-18T23:24:15Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Optimizing Preference Alignment with Differentiable NDCG Ranking [9.594183083553245]
近年の研究では、嗜好学習の理論的願望と実際の結果との間にかなりの相違が明らかになっている。本稿では、人間の嗜好調整を学習から学習までのタスクとみなす新しい手法である、アンダーラインDirectアンダーラインランキングアンダーライン最適化(O)を提案する。
論文参考訳（メタデータ） (2024-10-17T08:54:57Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。 LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文参考訳（メタデータ） (2024-05-22T10:21:50Z)
A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-20T23:59:26Z)
Learning Goal-Conditioned Policies from Sub-Optimal Offline Data via Metric Learning [22.174803826742963]
目標条件付きオフライン強化学習における最適データセットからの最適行動学習の問題に対処する。本稿では,目標条件付きオフラインRL問題に対する最適値関数を近似するための計量学習法を提案する。本手法は,分布外推定誤差に悩まされることなく,高度に最適化されたオフラインデータセットから最適な挙動を推定する。
論文参考訳（メタデータ） (2024-02-16T16:46:53Z)
Learning Fair Ranking Policies via Differentiable Optimization of Ordered Weighted Averages [55.04219793298687]
本稿では,学習からランクへの学習ループに,効率よく解ける公正ランキングモデルを組み込む方法について述べる。特に,本論文は,OWA目標の制約された最適化を通じてバックプロパゲーションを行う方法を示す最初のものである。
論文参考訳（メタデータ） (2024-02-07T20:53:53Z)
APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文参考訳（メタデータ） (2021-08-31T16:30:35Z)
Improving Long-Term Metrics in Recommendation Systems using Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文参考訳（メタデータ） (2021-06-01T15:58:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。