論文の概要: REARANK: Reasoning Re-ranking Agent via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.20046v1
- Date: Mon, 26 May 2025 14:31:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.512452
- Title: REARANK: Reasoning Re-ranking Agent via Reinforcement Learning
- Title(参考訳): REARANK:強化学習による再任エージェントの推論
- Authors: Le Zhang, Bo Wang, Xipeng Qiu, Siva Reddy, Aishwarya Agrawal,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に基づくリストワイズ推論エージェントREARANKを提案する。
REARANKは、リランク前の明確な理由と、パフォーマンスと解釈性の両方を大幅に改善した。
- 参考スコア(独自算出の注目度): 69.8397511935806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present REARANK, a large language model (LLM)-based listwise reasoning reranking agent. REARANK explicitly reasons before reranking, significantly improving both performance and interpretability. Leveraging reinforcement learning and data augmentation, REARANK achieves substantial improvements over baseline models across popular information retrieval benchmarks, notably requiring only 179 annotated samples. Built on top of Qwen2.5-7B, our REARANK-7B demonstrates performance comparable to GPT-4 on both in-domain and out-of-domain benchmarks and even surpasses GPT-4 on reasoning-intensive BRIGHT benchmarks. These results underscore the effectiveness of our approach and highlight how reinforcement learning can enhance LLM reasoning capabilities in reranking.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)に基づくリストワイズ推論エージェントREARANKを提案する。
REARANKは、リランク前の明確な理由と、パフォーマンスと解釈性の両方を大幅に改善した。
強化学習とデータ拡張を活用して、REARANKは一般的な情報検索ベンチマークでベースラインモデルよりも大幅に改善されている。
Qwen2.5-7B上に構築されたREARANK-7Bは、ドメイン内ベンチマークとドメイン外ベンチマークの両方でGPT-4に匹敵する性能を示し、推論集約型BRIGHTベンチマークではGPT-4を上回ります。
これらの結果は,本手法の有効性を裏付けるものであり,強化学習がLLM推論能力をいかに向上させるかを強調している。
関連論文リスト
- Phi-4-reasoning Technical Report [42.508165017775]
Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。
我々はPhi-4-reasoning-plusを開発した。
どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
論文 参考訳(メタデータ) (2025-04-30T05:05:09Z) - GPT Meets Graphs and KAN Splines: Testing Novel Frameworks on Multitask Fine-Tuned GPT-2 with LoRA [0.0]
本稿では,学習可能なモジュールと解釈可能なモジュール,特にKAN(Kolmogorov-Arnold Networks)とグラフベース表現(GPT-2モデル)を統合する可能性について検討する。
論文 参考訳(メタデータ) (2025-03-25T19:58:25Z) - RAG-Reward: Optimizing RAG with Reward Modeling and RLHF [8.911260109659489]
Retrieval-augmented Generation (RAG)は、関連知識と最新の知識でLarge Language Models (LLM)を強化する。
RAG最適化のための強化学習における報酬モデルの役割は未定である。
報酬モデルを開発するためのフレームワークである textbfRAG-Reward を導入する。
論文 参考訳(メタデータ) (2025-01-22T22:59:19Z) - RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs [22.51924253176532]
大規模言語モデル(LLM)は、テキストの再ランクタスクにおいて大きな可能性を示している。
ランキングユーティリティによる従来の微調整アプローチは、LLMの汎用能力を損なう可能性がある。
本稿では,SFTとChain-of-Thoughtプロンプトを実装した新しいRaCTリランクアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-18T23:24:15Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。
公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文 参考訳(メタデータ) (2024-05-23T11:00:19Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。