論文の概要: RaDeR: Reasoning-aware Dense Retrieval Models
- arxiv url: http://arxiv.org/abs/2505.18405v2
- Date: Tue, 27 May 2025 04:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 12:08:55.075548
- Title: RaDeR: Reasoning-aware Dense Retrieval Models
- Title(参考訳): RaDeR: Reasoning-Aware Dense Retrieval Models
- Authors: Debrup Das, Sam O' Nuallain, Razieh Rahimi,
- Abstract要約: RaDeRは、数学的問題解決から得られたデータで訓練された推論に基づく高密度検索モデルである。
RaDeRはBRIGHTとRAR-bベンチマークで様々な推論タスクに一般化する。
RaDeRは、並列処理のREASONIRで使用されるトレーニングデータのわずか2.5%を使用しながら、同等または優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 6.368620334078712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose RaDeR, a set of reasoning-based dense retrieval models trained with data derived from mathematical problem solving using large language models (LLMs). Our method leverages retrieval-augmented reasoning trajectories of an LLM and self-reflective relevance evaluation, enabling the creation of both diverse and hard-negative samples for reasoning-intensive relevance. RaDeR retrievers, trained for mathematical reasoning, effectively generalize to diverse reasoning tasks in the BRIGHT and RAR-b benchmarks, consistently outperforming strong baselines in overall performance. Notably, RaDeR achieves significantly higher performance than baselines on the Math and Coding splits. In addition, RaDeR presents the first dense retriever that outperforms BM25 when queries are Chain-of-Thought reasoning steps, underscoring the critical role of reasoning-based retrieval to augment reasoning language models. Furthermore, RaDeR achieves comparable or superior performance while using only 2.5% of the training data used by the concurrent work REASONIR, highlighting the quality of our synthesized training data.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を用いた数学的問題の解法から得られたデータを用いて学習した推論に基づく高密度検索モデルであるRaDeRを提案する。
提案手法は,LLMの検索拡張推論軌道と自己回帰関連性評価を利用して,多種多様・強相関性の両方のサンプルを作成することができる。
数学的推論のために訓練されたRaDeRレトリバーは、BRIGHTとRAR-bベンチマークの様々な推論タスクに効果的に一般化し、全体的なパフォーマンスにおいて強いベースラインを一貫して上回っている。
特に、RaDeRはMathとCodingのスプリットのベースラインよりも大幅に高いパフォーマンスを実現している。
さらに、RaDeRは、クエリがChain-of-Thought推論ステップであるときにBM25より優れている最初の高密度検索器を示し、推論に基づく検索と拡張推論言語モデルの重要な役割を強調している。
さらに、RaDeRは、並列処理REASONIRで使用されるトレーニングデータの2.5%しか使用せずに、同等または優れたパフォーマンスを実現し、合成したトレーニングデータの質を強調します。
関連論文リスト
- Behavior Injection: Preparing Language Models for Reinforcement Learning [24.46625106928253]
強化微調整(Reinforcement fine-tuning, RFT)は、大規模言語モデル(LLM)の推論能力を高めるための強力なポストトレーニング手法として登場した。
LLM は RFT に非常に矛盾しない応答が可能である。
RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。
論文 参考訳(メタデータ) (2025-05-25T00:54:50Z) - RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward [7.9399136525335585]
RAIDEN-R1は、VRAR(Verifiable Role-Awareness Reward)を統合した新しい強化学習フレームワークである
マルチLLMコラボレーションにより,高品質で役割対応のChain-of-Thoughtデータセットを構築した。
RAIDENベンチマークの実験では、RAIDEN-R1の優位性が示されている。
論文 参考訳(メタデータ) (2025-05-15T12:22:10Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。