論文の概要: Rank1: Test-Time Compute for Reranking in Information Retrieval
- arxiv url: http://arxiv.org/abs/2502.18418v1
- Date: Tue, 25 Feb 2025 18:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:31.116911
- Title: Rank1: Test-Time Compute for Reranking in Information Retrieval
- Title(参考訳): Rank1: 情報検索における再ランク付けのためのテスト時間計算
- Authors: Orion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme,
- Abstract要約: Rank1はテスト時間計算を活用するためにトレーニングされた最初のリグレードモデルである。
我々は、MS MARCOのクエリやパスからのR1推論トレースの600,000以上のサンプルのデータセットを収集し、オープンソース化する。
- 参考スコア(独自算出の注目度): 45.356614696154075
- License:
- Abstract: We introduce Rank1, the first reranking model trained to take advantage of test-time compute. Rank1 demonstrates the applicability within retrieval of using a reasoning language model (i.e. OpenAI's o1, Deepseek's R1, etc.) for distillation in order to rapidly improve the performance of a smaller model. We gather and open-source a dataset of more than 600,000 examples of R1 reasoning traces from queries and passages in MS MARCO. Models trained on this dataset show: (1) state-of-the-art performance on advanced reasoning and instruction following datasets; (2) work remarkably well out of distribution due to the ability to respond to user-input prompts; and (3) have explainable reasoning chains that can be given to users or RAG-based systems. Further, we demonstrate that quantized versions of these models retain strong performance while using less compute/memory. Overall, Rank1 shows that test-time compute allows for a fundamentally new type of explainable and performant reranker model for search.
- Abstract(参考訳): テストタイム計算を活用するためにトレーニングされた最初のリグレードモデルである Rank1 を紹介する。
Rank1は、より小さなモデルの性能を迅速に向上するために、推論言語モデル(OpenAIのo1、DeepseekのR1など)を蒸留に使用することの検索における適用性を示す。
我々は、MS MARCOのクエリやパスからのR1推論トレースの600,000以上のサンプルのデータセットを収集し、オープンソース化する。
このデータセットでトレーニングされたモデルは,(1)先進的な推論とデータセットの命令に対する最先端のパフォーマンス,(2)ユーザインプットのプロンプトに応答する能力によって,分布から著しく外れていること,(3)ユーザやRAGベースのシステムに提供可能な説明可能な推論チェーンがあること,を示す。
さらに、これらのモデルの量子化バージョンは、少ない計算/メモリを使用しながら、強い性能を維持していることを示す。
Rank1は、テストタイムの計算によって、検索のための説明可能な、実行可能なリランカモデルの基本的な新しいタイプを実現できることを示している。
関連論文リスト
- O1 Embedder: Let Retrievers Think Before Action [28.583031173137428]
我々は,対象文書の検索に先立って,入力クエリに有用な思考を生成するO1 Embedderを提案する。
私たちのアプローチは、12の一般的なデータセットで大幅に改善される包括的な実験によって評価されます。
これらの結果は、O1 Embedderの顕著な精度と一般化性を強調し、次世代IR基盤モデルの開発への道を開いた。
論文 参考訳(メタデータ) (2025-02-11T13:48:10Z) - Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification [35.347715518778095]
本研究では,サンプリングに基づく探索を規定するスケーリング傾向について検討する。
サンプリングベース検索の最小限の実装を単純にスケールアップするだけで、実用的な推論法が得られます。
テスト時間計算で自己検証能力を改善するための2つの有用な原則を同定する。
論文 参考訳(メタデータ) (2025-02-03T21:31:07Z) - s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。
テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (2025-01-31T18:48:08Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - Improving Passage Retrieval with Zero-Shot Question Generation [109.11542468380331]
オープンな質問応答における経路検索を改善するための,シンプルで効果的な再ランク付け手法を提案する。
再ランカは、学習済み言語モデルを用いて、検索されたパスに条件付けられた入力質問の確率を算出するゼロショット質問生成モデルを用いて、検索されたパスを再スコアする。
論文 参考訳(メタデータ) (2022-04-15T14:51:41Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z) - Learning Dense Representations of Phrases at Scale [22.792942611601347]
オープンドメインのQAにおいて、より強力なパフォーマンスを実現するための単語表現のみを学習できることを、私たちは初めて示します。
本モデルでは,従来の句検索モデルを15%~25%の絶対精度で改善する。
私たちのモデルは、純粋に密度の高い表現とCPU上で毎秒10問以上のプロセスのために、並列化が容易です。
論文 参考訳(メタデータ) (2020-12-23T12:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。