論文の概要: Review of Inference-Time Scaling Strategies: Reasoning, Search and RAG
- arxiv url: http://arxiv.org/abs/2510.10787v1
- Date: Sun, 12 Oct 2025 20:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.106632
- Title: Review of Inference-Time Scaling Strategies: Reasoning, Search and RAG
- Title(参考訳): 推論時間スケーリング戦略のレビュー:推論、検索、RAG
- Authors: Zhichao Wang, Cheng Wan, Dong Nie,
- Abstract要約: LLMのパフォーマンス向上は、歴史的に、モデルサイズとトレーニングデータのスケールアップによって推進されてきた。
高品質なトレーニングデータの可用性が急速に低下する中で、基本的なボトルネックが発生しています。
このレビューでは、新しい推論時間スケーリングの時代に寄与する様々なテクニックを体系的に調査する。
- 参考スコア(独自算出の注目度): 13.772025442106544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance gains of LLMs have historically been driven by scaling up model size and training data. However, the rapidly diminishing availability of high-quality training data is introducing a fundamental bottleneck, shifting the focus of research toward inference-time scaling. This paradigm uses additional computation at the time of deployment to substantially improve LLM performance on downstream tasks without costly model re-training. This review systematically surveys the diverse techniques contributing to this new era of inference-time scaling, organizing the rapidly evolving field into two comprehensive perspectives: Output-focused and Input-focused methods. Output-focused techniques encompass complex, multi-step generation strategies, including reasoning (e.g., CoT, ToT, ReAct), various search and decoding methods (e.g., MCTS, beam search), training for long CoT (e.g., RLVR, GRPO), and model ensemble methods. Input-focused techniques are primarily categorized by few-shot and RAG, with RAG as the central focus. The RAG section is further detailed through a structured examination of query expansion, data, retrieval and reranker, LLM generation methods, and multi-modal RAG.
- Abstract(参考訳): LLMのパフォーマンス向上は、歴史的に、モデルサイズとトレーニングデータのスケールアップによって推進されてきた。
しかし、高品質なトレーニングデータの可用性が急速に低下していることは、研究の焦点を推論時間のスケーリングにシフトさせるという、根本的なボトルネックをもたらしている。
このパラダイムは、デプロイ時に追加計算を使用して、ダウンストリームタスクにおけるLLMパフォーマンスを、コストのかかるモデル再トレーニングなしで大幅に改善する。
このレビューでは、新しい推論時間スケーリングの時代に寄与する様々なテクニックを体系的に調査し、急速に発展する分野を2つの総合的な視点にまとめる。
出力中心の手法は、推論(例えば、CoT、ToT、ReAct)、様々な検索および復号法(例えば、MCTS、ビームサーチ)、長いCoT(例えば、RLVR、GRPO)の訓練、モデルアンサンブル法を含む複雑な多段階生成戦略を含む。
入力中心のテクニックは、主にショット数とRAGで分類され、RAGが中心となる。
RAGセクションは、クエリ拡張、データ、検索と再ランカ、LLM生成方法、マルチモーダルRAGの構造化された検査によってさらに詳細に記述される。
関連論文リスト
- LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning [20.48365890565577]
本稿では,各ステップにおけるトレーニングデータを平均応答長に基づいて動的に選択するメタRLVRアルゴリズムを提案する。
複数のベースモデルとデータセットにまたがるLSPOを評価し,学習効率を継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-10-01T20:57:22Z) - Domain-Aware RAG: MoL-Enhanced RL for Efficient Training and Scalable Retrieval [5.640810636056805]
MoLERは、MoL強化強化学習を用いて検索を最適化するドメイン認識RAG手法である。
MoLERはRAGシステムの知識ギャップを埋め、特殊なドメインで堅牢でスケーラブルな検索を可能にする。
論文 参考訳(メタデータ) (2025-09-08T13:04:07Z) - Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies [66.83950068218033]
スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。
性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。
本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
論文 参考訳(メタデータ) (2025-08-05T08:03:12Z) - Taming the Titans: A Survey of Efficient LLM Inference Serving [33.65474967178607]
ジェネレーティブAIのための大規模言語モデル(LLM)は目覚ましい進歩を遂げた。
大量のパラメータによって引き起こされるメモリオーバーヘッドは、アテンション機構の高い計算要求と相まって、大きな課題を生じさせる。
地すべりの研究による最近の進歩は、この分野の進歩を著しく加速している。
論文 参考訳(メタデータ) (2025-04-28T12:14:02Z) - Comprehend, Divide, and Conquer: Feature Subspace Exploration via Multi-Agent Hierarchical Reinforcement Learning [19.64843401617767]
本稿では,複雑なデータセットに対する強化学習に基づく部分空間探索戦略であるHRLFSを紹介する。
HRLFSは、反復的な特徴空間探索により、下流機械学習性能を向上させる。
また,HRLFSは関与するエージェントの数を減らし,総実行時間を短縮することを示した。
論文 参考訳(メタデータ) (2025-04-24T08:16:36Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。