論文の概要: Think Before You Retrieve: Learning Test-Time Adaptive Search with Small Language Models
- arxiv url: http://arxiv.org/abs/2511.07581v1
- Date: Wed, 12 Nov 2025 01:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.391069
- Title: Think Before You Retrieve: Learning Test-Time Adaptive Search with Small Language Models
- Title(参考訳): 検索する前に考える:小さな言語モデルでテスト時間適応検索を学ぶ
- Authors: Supriti Vijay, Aman Priyanshu, Anu Vellore, Baturay Saglam, Amin Karbasi,
- Abstract要約: 我々は,学習した検索戦略を通じて,コンパクトなモデルによる反復的検索を可能にするトレーニングフレームワークOrionを紹介する。
Orionは、合成軌道生成と教師付き微調整を組み合わせることで、モデルの多様な探索パターンを促進する。
トレーニングデータの3%しか使用できないにも関わらず、私たちの1.2BモデルはSciFactで77.6%の成功を達成しています。
- 参考スコア(独自算出の注目度): 28.80331720382804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective information retrieval requires reasoning over partial evidence and refining strategies as information emerges. Yet current approaches fall short: neural retrievers lack reasoning capabilities, large language models (LLMs) provide semantic depth but at prohibitive cost, and query rewriting or decomposition limits improvement to static transformations. As a result, existing methods fail to capture the iterative dynamics of exploration, feedback, and revision that complex user queries demand. We introduce Orion, a training framework that enables compact models (350M-1.2B parameters) to perform iterative retrieval through learned search strategies. Orion combines: (1) synthetic trajectory generation and supervised fine-tuning to encourage diverse exploration patterns in models, (2) reinforcement learning (RL) that rewards effective query refinement and backtracking behaviors, and (3) inference-time beam search algorithms that exploit the self-reflection capabilities learned during RL. Despite using only 3% of the training data available, our 1.2B model achieves 77.6% success on SciFact (vs. 72.6% for prior retrievers), 25.2% on BRIGHT (vs. 22.1%), 63.2% on NFCorpus (vs. 57.8%), and remains competitive on FEVER, HotpotQA, and MSMarco. It outperforms retrievers up to 200-400x larger on five of six benchmarks. These findings suggest that retrieval performance can emerge from learned strategies, not just model scale, when models are trained to search, reflect, and revise.
- Abstract(参考訳): 効果的な情報検索は、情報の出現に際し、部分的な証拠の推論と修正戦略を必要とする。
ニューラルレトリバーは推論能力に欠け、大きな言語モデル(LLM)はセマンティックディープを提供するが、禁忌のコストで、クエリ書き換えや分解は静的変換の改善を制限する。
その結果、既存の手法では、複雑なユーザクエリが要求する探索、フィードバック、リビジョンの反復的なダイナミクスを捉えることができない。
本稿では,350M-1.2Bパラメータのコンパクトモデルを用いて,学習した探索戦略による反復的検索を可能にするトレーニングフレームワークOrionを紹介する。
Orion は,(1) モデルにおける多様な探索パターンを促進するための合成軌道生成と教師付き微調整,(2) 効率的なクエリの洗練と追跡行動に報いる強化学習 (RL) ,(3) RL で学んだ自己回帰能力を活用する推論時ビーム探索アルゴリズムを組み合わせた。
トレーニングデータの3%しか使用していないにもかかわらず、私たちの1.2BモデルはSciFact(前回の検索では72.6%)で77.6%、BRIGHT(22.1%)で25.2%、NFCorpus(57.8%)で63.2%、FEVER、HotpotQA、MSMarcoで競争力を維持しています。
6つのベンチマークのうち5つでリトリーバーを200-400倍に上回っている。
これらの結果から,モデルが探索,反映,修正の訓練を受けた場合,モデルスケールだけでなく,学習戦略から検索性能が生ずる可能性が示唆された。
関連論文リスト
- Representation-Based Exploration for Language Models: From Test-Time to Post-Training [50.144031964319424]
強化学習(RL)は、言語モデルの能力を拡張することを約束する。
現在のRL技術が新しい行動の発見を促進するのか、あるいは単にベースモデルにすでに存在するものを研ぎ澄ましているのかは不明だ。
我々は、意図的な探索の価値を調査し、新しい多様な行動を発見するためのモデルを明確にインセンティブ付けする。
論文 参考訳(メタデータ) (2025-10-13T17:49:05Z) - ASTRO: Teaching Language Models to Reason by Reflecting and Backtracking In-Context [66.15505423059234]
ASTROは,検索アルゴリズムのような推論のために,言語モデルをトレーニングするためのフレームワークである。
ASTROをLlama 3モデルのモデルに適用し,MATH-500では16.4%,AMC 2023では26.9%,AIME 2024では20.0%,絶対的な性能向上を達成した。
論文 参考訳(メタデータ) (2025-07-01T04:10:15Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [117.86853102104256]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスカテゴリの一般化、自己回帰の頻度の増加、テスト性能の向上の持続などを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - CSPLADE: Learned Sparse Retrieval with Causal Language Models [13.999080540889494]
学習スパース検索(LSR)のための大規模言語モデル(LLM)の訓練における2つの課題を特定する。
本研究では,(1)トレーニング不安定を解消するための軽量適応訓練フェーズ,(2)双方向情報を実現するための2つのモデル変種を提案する。
これらの手法により,LSRモデルを8BスケールのLLMで学習し,インデックスサイズを縮小した競合検索性能を実現することができる。
論文 参考訳(メタデータ) (2025-04-15T02:31:34Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - DeepRetrieval: Hacking Real Search Engines and Retrievers with Large Language Models via Reinforcement Learning [44.806321084404324]
DeepRetrievalは強化学習(RL)アプローチで、教師付きデータなしで試行錯誤によるクエリ生成のためにLLMをトレーニングする。
検索指標を報奨として,検索性能を最大化するクエリを生成する。
論文 参考訳(メタデータ) (2025-02-28T22:16:42Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。