論文の概要: Reinforcement Learning to Rank Using Coarse-grained Rewards
- arxiv url: http://arxiv.org/abs/2208.07563v2
- Date: Tue, 19 Aug 2025 19:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.019829
- Title: Reinforcement Learning to Rank Using Coarse-grained Rewards
- Title(参考訳): 粗粒リワードを用いたランク強化学習
- Authors: Yiteng Tu, Zhichao Xu, Tao Yang, Weihang Su, Yujia Zhou, Yiqun Liu, Fen Lin, Qin Liu, Qingyao Ai,
- Abstract要約: 粗い粒度のフィードバック信号は、よりアクセシブルで手頃な価格である。
既存の強化学習 ランクへのアプローチは、高いばらつきと低いサンプル効率に悩まされる。
本稿では,大規模言語モデルに広く用いられているRLアルゴリズムに基づいて,新しい強化学習手法をランク付けする。
- 参考スコア(独自算出の注目度): 17.09775943683446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to rank (LTR) plays a crucial role in various Information Retrieval (IR) tasks. Although supervised LTR methods based on fine-grained relevance labels (e.g., document-level annotations) have achieved significant success, their reliance on costly and potentially biased annotations limits scalability and alignment with realistic goals. In contrast, coarse-grained feedback signals, such as duration time and session-level engagement, are more accessible and affordable. Reinforcement Learning (RL) offers a promising framework to directly optimize these objectives using reward signals, but most existing Reinforcement Learning to Rank (RLTR) approaches suffer from high variance and low sample efficiency. Motivated by recent advances in large language models (LLMs), we re-examine the problem of RLTR with coarse-grained rewards and propose new RLTR methods based on widely used RL algorithms for LLMs. We systematically compare supervised learning and RL-based methods across various model architectures and coarse-grained reward functions on large-scale LTR benchmarks. Experimental results demonstrate that advanced RL methods can directly learn from coarse-grained rewards and outperform strong supervised learning baselines even with fine-grained labels. This shows the great potential of RLTR for metric-agnostic ranking optimization.
- Abstract(参考訳): ランク付け学習(LTR)は、様々な情報検索(IR)タスクにおいて重要な役割を果たす。
詳細な関連性ラベル(ドキュメントレベルのアノテーションなど)に基づく教師付きLTRメソッドは、大きな成功を収めているが、コストと潜在的なバイアスのあるアノテーションに依存しているため、スケーラビリティと現実的な目標との整合性が制限されている。
対照的に、持続時間やセッションレベルのエンゲージメントといった粗い粒度のフィードバック信号は、よりアクセシビリティが高く、手頃な価格である。
強化学習(RL)は、報酬信号を使ってこれらの目的を直接最適化する有望なフレームワークを提供するが、既存の強化学習 to Rank(RLTR)アプローチのほとんどは、高い分散と低いサンプル効率に悩まされている。
大規模言語モデル (LLM) の最近の進歩に触発されて, 粗大な報酬を伴う RLTR の問題を再検討し, 広く使われている LLM に対する RLTR アルゴリズムに基づく新しい RLTR 手法を提案する。
大規模LTRベンチマークにおいて,教師付き学習とRLに基づく手法を多種多様なモデルアーキテクチャと粗粒度報酬関数で体系的に比較した。
実験結果から,RL法は粗大な報酬から直接学習でき,きめ細かいラベルでも強い教師付き学習ベースラインを達成できることがわかった。
このことは、計量に依存しないランク最適化におけるRLTRの大きな可能性を示している。
関連論文リスト
- Sample-efficient LLM Optimization with Reset Replay [13.739451157239756]
Reset Replay (LoRR) は、任意の好みベースの最適化フレームワークにおいて、サンプリング効率を高めるために設計されたプラグインである。
LoRRは、ネットワークの可塑性を保存する初期データを再利用する定期的なリセット戦略を取り入れている。
実験により,LoRRは数学的および一般的な推論ベンチマークにおいて,様々な選好最適化手法の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-08-08T15:56:49Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning [7.78764814568908]
まず,MLLM画像分類のためのCRS-RLを提案する。
RFTにおける明示的な思考が常に必要かどうかを再考し、疑問を呈する。
No-Thinking-RL は単純な等式精度の報酬を導入することで、考えることなく RFT を探索する。
論文 参考訳(メタデータ) (2025-03-20T14:37:45Z) - Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
勾配に基づく手法を用いて訓練された深層強化学習(RL)モデルでは、勾配の選択とその学習速度は優れた性能を達成するために不可欠である。
本稿では,学習中のエージェントのパフォーマンスに基づいて学習率を選択するメタ学習手法である深層強化学習(LRRL)の動的学習率を提案する。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Prioritized Trajectory Replay: A Replay Memory for Data-driven Reinforcement Learning [68.02988959934498]
本稿では,サンプリング視点をトラジェクトリに拡張するメモリ技術である(Prioritized) Trajectory Replay (TR/PTR)を提案する。
TRは、その後の状態情報の使用を最適化するトラジェクトリの後方サンプリングによって学習効率を向上させる。
D4RL上の既存のオフラインRLアルゴリズムとTRとPTRを統合する利点を実証する。
論文 参考訳(メタデータ) (2023-06-27T14:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。