論文の概要: RaDeR: Reasoning-aware Dense Retrieval Models
- arxiv url: http://arxiv.org/abs/2505.18405v1
- Date: Fri, 23 May 2025 22:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.397516
- Title: RaDeR: Reasoning-aware Dense Retrieval Models
- Title(参考訳): RaDeR: Reasoning-Aware Dense Retrieval Models
- Authors: Debrup Das, Sam O' Nuallain, Razieh Rahimi,
- Abstract要約: RaDeRは、大規模言語モデル(LLM)を用いて数学的問題解決から得られたデータを用いて訓練された推論に基づく高密度検索モデルの集合である。
RaDeRはBRIGHTとRAR-bベンチマークで様々な推論タスクに一般化する。
RaDeRは、並列処理のREASONIRで使用されるトレーニングデータのわずか2.5%を使用しながら、同等または優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 6.368620334078712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose RaDeR, a set of reasoning-based dense retrieval models trained with data derived from mathematical problem solving using large language models (LLMs). Our method leverages retrieval-augmented reasoning trajectories of an LLM and self-reflective relevance evaluation, enabling the creation of both diverse and hard-negative samples for reasoning-intensive relevance. RaDeR retrievers, trained for mathematical reasoning, effectively generalize to diverse reasoning tasks in the BRIGHT and RAR-b benchmarks, consistently outperforming strong baselines in overall performance.Notably, RaDeR achieves significantly higher performance than baselines on the Math and Coding splits. In addition, RaDeR presents the first dense retriever that outperforms BM25 when queries are Chain-of-Thought reasoning steps, underscoring the critical role of reasoning-based retrieval to augment reasoning language models. Furthermore, RaDeR achieves comparable or superior performance while using only 2.5% of the training data used by the concurrent work REASONIR, highlighting the quality of our synthesized training data.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を用いた数学的問題の解法から得られたデータを用いて学習した推論に基づく高密度検索モデルであるRaDeRを提案する。
提案手法は,LLMの検索拡張推論軌道と自己回帰関連性評価を利用して,多種多様・強相関性の両方のサンプルを作成できる。
数学的推論のために訓練されたRaDeRレトリバーは、BRIGHTとRAR-bベンチマークの様々な推論タスクに効果的に一般化し、全体的なパフォーマンスにおいて強いベースラインを一貫して上回り、しかしながら、RaDeRはMathとCodingのスプリットのベースラインよりもはるかに高いパフォーマンスを実現している。
さらに、RaDeRは、クエリがChain-of-Thought推論ステップであるときにBM25より優れている最初の高密度検索器を示し、推論に基づく検索と拡張推論言語モデルの重要な役割を強調している。
さらに、RaDeRは、並列処理REASONIRで使用されるトレーニングデータの2.5%しか使用せずに、同等または優れたパフォーマンスを実現し、合成したトレーニングデータの質を強調します。
関連論文リスト
- Decomposed Reasoning with Reinforcement Learning for Relevance Assessment in UGC Platforms [30.51899823655511]
Retrieval-augmented Generation (RAG)は、ユーザ生成コンテンツプラットフォームにおいて重要な役割を果たす。
1)RAGシナリオにおけるユーザフィードバックの少なさによる曖昧なユーザ意図,2)非公式言語や非構造化言語によって導入された相当なノイズ。
論文 参考訳(メタデータ) (2025-08-04T15:14:09Z) - Enhancing Test-Time Scaling of Large Language Models with Hierarchical Retrieval-Augmented MCTS [19.394761422323853]
R2-LLMsは,新規で汎用的な階層型検索拡張推論フレームワークである。
R2-LLMsは、二重レベル検索ベースのインコンテキスト学習を統合することにより、推論時間一般化を強化する。
MATH500、GSM8K、OlympiadBench-TOデータセットに関する実証的な評価は、かなりの相対的な改善をもたらす。
論文 参考訳(メタデータ) (2025-07-08T00:41:12Z) - Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks [6.881699020319577]
大規模言語モデル(LLM)を微調整するための強化学習フレームワークであるダイレクト推論最適化(DRO)を提案する。
DROは新たな報酬信号、Reasoning Reflection Reward (R3)によって誘導される。
DROは、オープンエンドドメインと構造化ドメインの両方にわたって広く適用されながら、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-16T10:43:38Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Behavior Injection: Preparing Language Models for Reinforcement Learning [24.46625106928253]
強化微調整(Reinforcement fine-tuning, RFT)は、大規模言語モデル(LLM)の推論能力を高めるための強力なポストトレーニング手法として登場した。
LLM は RFT に非常に矛盾しない応答が可能である。
RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。
論文 参考訳(メタデータ) (2025-05-25T00:54:50Z) - RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward [7.9399136525335585]
RAIDEN-R1は、VRAR(Verifiable Role-Awareness Reward)を統合した新しい強化学習フレームワークである
マルチLLMコラボレーションにより,高品質で役割対応のChain-of-Thoughtデータセットを構築した。
RAIDENベンチマークの実験では、RAIDEN-R1の優位性が示されている。
論文 参考訳(メタデータ) (2025-05-15T12:22:10Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。