論文の概要: Bag of Tricks for Inference-time Computation of LLM Reasoning
- arxiv url: http://arxiv.org/abs/2502.07191v3
- Date: Fri, 14 Feb 2025 11:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:46:19.524318
- Title: Bag of Tricks for Inference-time Computation of LLM Reasoning
- Title(参考訳): LLM推論時間計算のためのトリックのバグ
- Authors: Fan Liu, Wenshuo Chao, Naiqiang Tan, Hao Liu,
- Abstract要約: 複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。
我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。
我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
- 参考スコア(独自算出の注目度): 10.366475014241407
- License:
- Abstract: With the advancement of large language models (LLMs), solving complex reasoning tasks has gained increasing attention. Inference-time computation methods (e.g., Best-of-N, beam search, et al.) are particularly valuable as they can enhance reasoning performance without modifying model parameters or requiring additional training. However, these techniques come with implementation challenges, and most existing methods remain at the proof-of-concept stage with limited practical adoption due to their computational complexity and varying effectiveness across different tasks. In this paper, we investigate and benchmark diverse inference-time computation strategies across reasoning tasks of varying complexity. Since most current methods rely on a proposer-verifier pipeline that first generates candidate solutions (e.g., reasoning solutions) and then selects the best one based on reward signals (e.g., RLHF rewards, process rewards), our research focuses on optimizing both candidate solution generation (e.g., instructing prompts, hyperparameters such as temperature and top-p) and reward mechanisms (e.g., self-evaluation, reward types). Through extensive experiments (more than 20,000 A100-80G GPU hours with over 1,000 experiments) across a variety of models (e.g., Llama, Qwen, and Mistral families) of various sizes, our ablation studies reveal that previously overlooked strategies can significantly enhance performance (e.g., tuning temperature can improve reasoning task performance by up to 5%). Furthermore, we establish a standardized benchmark for inference-time computation by systematically evaluating six representative methods across eight reasoning tasks. These findings provide a stronger foundation for future research. The code is available at https://github.com/usail-hkust/benchmark_inference_time_computation_LL
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩に伴い、複雑な推論タスクの解決が注目されている。
推論時間計算手法(Best-of-N, beam search, al など)は,モデルパラメータの変更や追加トレーニングの必要なしに推論性能を向上させることができるため,特に有用である。
しかし、これらの手法は実装上の課題を伴い、既存の手法の多くは概念実証段階のままであり、計算の複雑さと様々なタスクにまたがる様々な効果のために、実用化は限られている。
本稿では,複雑性の異なる推論タスクに対して,多様な推論時間計算戦略を検証し,ベンチマークを行う。
提案手法の多くは、まず候補解(例えば、推論解)を生成し、次に報酬信号(例えば、RLHF報酬、プロセス報酬)に基づいて最良の解を選択するプロジェクタ検証パイプラインに依存しているため、我々の研究は、候補解の生成(例えば、インストラクション、温度やトップpのようなハイパーパラメータ)と報酬機構(例えば、自己評価、報酬型)の両方を最適化することに焦点を当てている。
様々なサイズのモデル(例えば、Llama、Qwen、Mistralファミリー)にわたる広範囲な実験(1000以上の実験で2万時間以上A100-80G GPU時間)を通じて、我々のアブレーション研究は、これまで見過ごされていた戦略がパフォーマンスを著しく向上させることができる(例えば、チューニング温度は推論タスクのパフォーマンスを最大5%向上させることができる)。
さらに、8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより、推論時間計算の標準ベンチマークを確立する。
これらの発見は将来の研究の基盤となる。
コードはhttps://github.com/usail-hkust/benchmark_inference_time_computation_LLで公開されている。
関連論文リスト
- A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop
Visual Reasoning [16.495754104540605]
大規模言語モデル(LLM)は、視覚的推論のような複雑な推論タスクのためのコードライクな計画を生成することができる。
ワンストップ推論 (fast) とツリー・オブ・シント (slow) を統合した階層型計画探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-18T16:21:40Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - DERAIL: Diagnostic Environments for Reward And Imitation Learning [9.099589602551573]
アルゴリズム性能の個々の面を個別にテストする一連の診断タスクを開発する。
その結果,アルゴリズムの性能は実装の詳細に非常に敏感であることが確認された。
ケーススタディは、スイートが設計上の欠陥を特定し、候補ソリューションを迅速に評価する方法を示している。
論文 参考訳(メタデータ) (2020-12-02T18:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。