論文の概要: Learning to Reason Across Parallel Samples for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2506.09014v1
- Date: Tue, 10 Jun 2025 17:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.972062
- Title: Learning to Reason Across Parallel Samples for LLM Reasoning
- Title(参考訳): LLM推論のための並列サンプル間の推論学習
- Authors: Jianing Qi, Xi Ye, Hao Tang, Zhigang Zhu, Eunsol Choi,
- Abstract要約: テスト時間計算のスケールアップは、大規模な言語モデルに大幅なパフォーマンス向上をもたらす。
このような複数のサンプルセットを活用する新しい方法を提案する。
我々は、複数のサンプルのシーケンスを取り、最終的な答えを出力するコンパクトなLLMを訓練する。
- 参考スコア(独自算出の注目度): 45.60752271688715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling test-time compute brings substantial performance gains for large language models (LLMs). By sampling multiple answers and heuristically aggregate their answers (e.g., either through majority voting or using verifiers to rank the answers), one can achieve consistent performance gains in math domains. In this paper, we propose a new way to leverage such multiple sample set. We train a compact LLM, called Sample Set Aggregator (SSA), that takes a concatenated sequence of multiple samples and output the final answer, optimizing it for the answer accuracy with reinforcement learning. Experiments on multiple reasoning datasets show that SSA outperforms other test-time scaling methods such as reward model-based re-ranking. Our approach also shows a promising generalization ability, across sample set sizes, base model families and scales, and tasks. By separating LLMs to generate answers and LLMs to analyze and aggregate sampled answers, our approach can work with the outputs from premier black box models easily and efficiently.
- Abstract(参考訳): テスト時間計算のスケールアップは、大規模言語モデル(LLM)に大幅なパフォーマンス向上をもたらす。
複数の回答をサンプリングし、その回答をヒューリスティックに集約することで(例えば、多数決または検証者を使って答えをランク付けすることで)、数学領域で一貫したパフォーマンス向上を達成することができる。
本稿では,このような複数のサンプル集合を利用する新しい手法を提案する。
我々は、複数のサンプルの連結シーケンスを抽出し、最終的な解を出力し、強化学習による解の精度を最適化する、Sample Set Aggregator (SSA) と呼ばれるコンパクトLCMを訓練する。
複数の推論データセットの実験は、SSAが報酬モデルベースの再ランク付けのような他のテストタイムスケーリング手法よりも優れていることを示している。
提案手法は,サンプルセットのサイズ,ベースモデルファミリとスケール,タスクなど,有望な一般化能力を示す。
LLMを分離して回答を生成し,LCMを抽出してサンプル回答を分析し,集約することにより,主要なブラックボックスモデルからの出力を簡便かつ効率的に処理することができる。
関連論文リスト
- Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Refining Answer Distributions for Improved Large Language Model Reasoning [24.67507932821155]
本稿では,Large Language Models (LLMs) の推論能力を高めるための,新しいアルゴリズムフレームワークであるRefined Answer Distributionsを提案する。
我々のアプローチは、モンテカルロ近似(英語版)を形成するための反復的なサンプリング戦略と見なすことができる。
論文 参考訳(メタデータ) (2024-12-17T19:45:53Z) - Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling [38.7578639980701]
自己改善手法により、大規模な言語モデルがソリューション自体を生成できる。
モデルでは、簡単なクエリをオーバーサンプルし、まだマスターしていないクエリをアンダーサンプルする傾向があります。
本稿では,重み付きデータ抽出の効率化を目的とした,ガイド付き自己改善(GSI)について紹介する。
論文 参考訳(メタデータ) (2024-11-01T17:18:45Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。
意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Enhancing In-Context Learning with Answer Feedback for Multi-Span
Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。
3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-06-07T15:20:24Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。