論文の概要: Ranking-aware Reinforcement Learning for Ordinal Ranking
- arxiv url: http://arxiv.org/abs/2601.20585v1
- Date: Wed, 28 Jan 2026 13:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.941139
- Title: Ranking-aware Reinforcement Learning for Ordinal Ranking
- Title(参考訳): 正規ランク付けのためのランキング認識強化学習
- Authors: Aiming Hao, Chen Zhu, Jiashu Zhu, Jiahong Wu, Xiangxiang Chu,
- Abstract要約: 本稿では,これらの関係を明示的に学習する新しいRLフレームワークであるRARLを提案する。
RARLはレグレッションとL2R(Learning-to-Rank)を統合する統一された目的を持ち、2つのタスク間の相互改善を可能にする。
トレーニングをさらに強化するため,制御ノイズを注入して探索を改善し,サドル地点での停滞を防止するリアクションミューテーション操作(RMO)を導入する。
- 参考スコア(独自算出の注目度): 19.678002354790582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ordinal regression and ranking are challenging due to inherent ordinal dependencies that conventional methods struggle to model. We propose Ranking-Aware Reinforcement Learning (RARL), a novel RL framework that explicitly learns these relationships. At its core, RARL features a unified objective that synergistically integrates regression and Learning-to-Rank (L2R), enabling mutual improvement between the two tasks. This is driven by a ranking-aware verifiable reward that jointly assesses regression precision and ranking accuracy, facilitating direct model updates via policy optimization. To further enhance training, we introduce Response Mutation Operations (RMO), which inject controlled noise to improve exploration and prevent stagnation at saddle points. The effectiveness of RARL is validated through extensive experiments on three distinct benchmarks.
- Abstract(参考訳): 通常の回帰とランク付けは、従来の手法がモデル化に苦労する固有の順序依存のため、難しい。
本稿では,これらの関係を明示的に学習する新しいRLフレームワークであるRARLを提案する。
RARLのコアとなる目的は、回帰とL2R(Learning-to-Rank)を相乗的に統合し、2つのタスク間の相互改善を可能にする統一された目標である。
これは、回帰精度とランキング精度を共同で評価し、ポリシー最適化による直接的なモデル更新を容易にする、ランキングアウェアの検証可能な報酬によって駆動される。
トレーニングをさらに強化するため,制御ノイズを注入して探索を改善し,サドル地点での停滞を防止するリアクションミューテーション操作(RMO)を導入する。
RARLの有効性は、3つの異なるベンチマークで広範な実験によって検証される。
関連論文リスト
- ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - Rethinking Reasoning in Document Ranking: Why Chain-of-Thought Falls Short [36.93384080571354]
文書の再ランク付けは情報検索(IR)における重要な要素である
本研究は, ポイントワイド設定とリストワイド設定の両方にまたがって, 推論に関する最初の体系的な研究である。
論文 参考訳(メタデータ) (2025-10-10T03:59:17Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability [83.16850534680505]
本稿では,自動推論集約型トレーニングデータ合成フレームワークを提案する。
自己整合性データフィルタリング機構は、データ品質を保証するために設計されている。
トレーニングされた推論集約型リランカ textbfReasonRank は,BRIGHT のリーダボード上での最先端 (SOTA) のパフォーマンス40.6 を達成する。
論文 参考訳(メタデータ) (2025-08-09T17:26:18Z) - R1-Ranker: Teaching LLM Rankers to Reason [35.35360001710222]
R1-Rankerは強化学習に基づく推論インセンティブフレームワークである。
IRankerは、より深い推論を促進するために、段階的な報酬でランク付けを反復的排除プロセスに分解する。
我々は、レコメンデーション、ルーティング、通過ランキングにまたがる9つのデータセットに基づいて、統一されたR1-Rankerを評価した。
論文 参考訳(メタデータ) (2025-06-25T17:56:06Z) - KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG [63.82127103851471]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルがより広範な知識ソースにアクセスすることを可能にする。
ノイズの多いコンテンツを処理するために生成モデルの能力を向上させることは、ロバストなパフォーマンスに等しく重要であることを実証する。
本稿では,3つの重要なイノベーションを通じて知識利用を改善するKARE-RAGを提案する。
論文 参考訳(メタデータ) (2025-06-03T06:31:17Z) - Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [2.743898388459522]
深層強化学習(RL)では、学習速度は安定性と性能の両方に重大な影響を及ぼすが、環境と政策が進化するにつれて、トレーニング中に最適な価値がシフトする。
標準崩壊スケジューラは単調収束を仮定し、しばしばこれらのダイナミクスと不一致し、早めまたは遅れた調整をもたらす。
LRRLは、学習手順ではなく、政策性能に基づいて動的に学習率を選択するメタ学習手法である。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。