論文の概要: ReasonIR: Training Retrievers for Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2504.20595v1
- Date: Tue, 29 Apr 2025 09:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.83117
- Title: ReasonIR: Training Retrievers for Reasoning Tasks
- Title(参考訳): ReasonIR:Reasoningタスクのためのトレーニングレトリバー
- Authors: Rulin Shao, Rui Qiao, Varsha Kishore, Niklas Muennighoff, Xi Victoria Lin, Daniela Rus, Bryan Kian Hsiang Low, Sewon Min, Wen-tau Yih, Pang Wei Koh, Luke Zettlemoyer,
- Abstract要約: ReasonIR-8Bは一般的な推論タスクのために特別に訓練された最初のレトリバーである。
新たに29.9 nDCG@10をリランカなしで、36.9 nDCG@10をリランカで達成している。
- 参考スコア(独自算出の注目度): 139.54343970560103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ReasonIR-8B, the first retriever specifically trained for general reasoning tasks. Existing retrievers have shown limited gains on reasoning tasks, in part because existing training datasets focus on short factual queries tied to documents that straightforwardly answer them. We develop a synthetic data generation pipeline that, for each document, our pipeline creates a challenging and relevant query, along with a plausibly related but ultimately unhelpful hard negative. By training on a mixture of our synthetic data and existing public data, ReasonIR-8B achieves a new state-of-the-art of 29.9 nDCG@10 without reranker and 36.9 nDCG@10 with reranker on BRIGHT, a widely-used reasoning-intensive information retrieval (IR) benchmark. When applied to RAG tasks, ReasonIR-8B improves MMLU and GPQA performance by 6.4% and 22.6% respectively, relative to the closed-book baseline, outperforming other retrievers and search engines. In addition, ReasonIR-8B uses test-time compute more effectively: on BRIGHT, its performance consistently increases with longer and more information-rich rewritten queries; it continues to outperform other retrievers when combined with an LLM reranker. Our training recipe is general and can be easily extended to future LLMs; to this end, we open-source our code, data, and model.
- Abstract(参考訳): 我々は、一般的な推論タスクのために特別に訓練された最初のレトリバーであるReasonIR-8Bを紹介する。
既存のリトリバーは、推論タスクに制限的なゲインを示してきた。その理由のひとつは、既存のトレーニングデータセットが、それらに直接答える文書に結びついた短い事実クエリに焦点を当てているためだ。
合成データ生成パイプラインを開発し、各ドキュメントに対して、パイプラインは困難で関連性の高いクエリを生成します。
ReasonIR-8Bは、我々の合成データと既存の公開データを組み合わせたトレーニングにより、リランカなしで29.9 nDCG@10の新たな最先端と36.9 nDCG@10のリランカを実現する。
RAGタスクに適用すると、ReasonIR-8BはMMLUとGPQAのパフォーマンスをそれぞれ6.4%と22.6%改善し、他の検索者や検索エンジンより優れている。
さらに、ReasonIR-8Bはテスト時間計算をより効果的に利用する:BRIGHTでは、その性能はより長く情報に富んだリライトクエリによって一貫して増加し、LLMリランカと組み合わせて他のリトリバーより優れている。
トレーニングのレシピは一般的になり、将来のLLMにも容易に拡張できます。
関連論文リスト
- Beyond Contrastive Learning: Synthetic Data Enables List-wise Training with Multiple Levels of Relevance [24.842839260409075]
この作業では、実際のトレーニングドキュメントとアノテーションを完全に禁じています。
オープンソース LLM を用いて,複数のレベルの関連性に応じて,実際のユーザクエリに応答する合成文書を直接生成する。
各種IRデータセットの実験により,提案手法はInfoNCEを用いた従来のトレーニングよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2025-03-29T22:33:22Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - Can we Retrieve Everything All at Once? ARM: An Alignment-Oriented LLM-based Retrieval Method [48.14236175156835]
ARMは、データオブジェクト間の関係を探索することで、データ収集の組織とよりよく一致させることを目指している。
クエリ分解の精度は最大5.2 pt、エージェントRAG(ReAct)は最大15.9 ptである。
最大5.5 pt、19.3 ptのF1マッチスコアをこれらのアプローチと比較して達成する。
論文 参考訳(メタデータ) (2025-01-30T18:07:19Z) - W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
W-RAGは、下流タスクから弱いトレーニング信号を抽出し、検索者がタスクに最も利益をもたらすパスを優先順位付けするように微調整する手法である。
我々は4つの公開可能なOpenQAデータセットの包括的な実験を行い、我々のアプローチが検索とOpenQAのパフォーマンスを向上させることを実証した。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - RAR-b: Reasoning as Retrieval Benchmark [7.275757292756447]
我々は、推論タスクを検索タスクに変換し、レトリバーモデルに格納された推論能力を評価する。
最近のデコーダベースの埋め込みモデルは、ギャップを狭めることに非常に有望である。
Reasoning as Retrieval Benchmark (RAR-b) は、検索モデルに格納された推論能力を評価するためのタスクと設定の総合的なスイートである。
論文 参考訳(メタデータ) (2024-04-09T14:34:48Z) - Saving Dense Retriever from Shortcut Dependency in Conversational Search [7.584170081762014]
会話検索(CS)における検索ショートカットは、最新の質問を無視しながら、部分的履歴のみに依存したパスを復元する。
本研究は, 近道を多用し, 履歴に依存しない質問に答えることが困難であることを示す。
モデルがショートカットにのみ依存することを防止するため,事前訓練された高密度レトリバーによって抽出された反復的硬い負を探索する。
論文 参考訳(メタデータ) (2022-02-15T09:53:35Z) - Learning to Retrieve Passages without Supervision [58.31911597824848]
オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
論文 参考訳(メタデータ) (2021-12-14T19:18:08Z) - Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。
AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文 参考訳(メタデータ) (2021-10-07T16:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。