Fugu-MT 論文翻訳(概要): LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

論文の概要: LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

arxiv url: http://arxiv.org/abs/2410.02884v2
Date: Thu, 21 Nov 2024 07:07:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.200802
Title: LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning
Title（参考訳）: LLaMA-Berry: O1-like Olympiad-Level Mathematical Reasoningのペアワイズ最適化
Authors: Di Zhang, Jianbo Wu, Jingdi Lei, Tong Che, Jiatong Li, Tong Xie, Xiaoshui Huang, Shufei Zhang, Marco Pavone, Yuqiang Li, Wanli Ouyang, Dongzhan Zhou,
Abstract要約: このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
参考スコア（独自算出の注目度）: 56.273799410256075
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents an advanced mathematical problem-solving framework, LLaMA-Berry, for enhancing the mathematical reasoning ability of Large Language Models (LLMs). The framework combines Monte Carlo Tree Search (MCTS) with iterative Self-Refine to optimize the reasoning path and utilizes a pairwise reward model to evaluate different paths globally. By leveraging the self-critic and rewriting capabilities of LLMs, Self-Refine applied to MCTS (SR-MCTS) overcomes the inefficiencies and limitations of conventional step-wise and greedy search algorithms by fostering a more efficient exploration of solution spaces. Pairwise Preference Reward Model~(PPRM), inspired by Reinforcement Learning from Human Feedback (RLHF), is then used to model pairwise preferences between solutions, utilizing an Enhanced Borda Count (EBC) method to synthesize these preferences into a global ranking score to find better answers. This approach addresses the challenges of scoring variability and non-independent distributions in mathematical reasoning tasks. The framework has been tested on general and advanced benchmarks, showing superior performance in terms of search efficiency and problem-solving capability compared to existing methods like ToT and rStar, particularly in complex Olympiad-level benchmarks, including GPQA, AIME24 and AMC23.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)の数学的推論能力を高めるために,高度な数学的問題解決フレームワークであるLLaMA-Berryを提案する。このフレームワークはMonte Carlo Tree Search (MCTS) と反復的なSelf-Refineを組み合わせ、推論パスを最適化し、ペアワイズ報酬モデルを使用して、異なるパスを世界規模で評価する。 LLMの自己批判的・書き直し機能を活用することで、MCTS(SR-MCTS)に適用されたセルフリファインは、解空間のより効率的な探索を促進することで、従来のステップワイドおよびグリーディ探索アルゴリズムの非効率性と制限を克服する。 Pairwise Preference Reward Model~(PPRM)は、RLHF(Reinforcement Learning from Human Feedback)にインスパイアされた上で、拡張ボルダ数(EBC)法を用いて、これらの選好をグローバルなランキングスコアに合成し、より良い回答を求める。このアプローチは、数学的推論タスクにおける変数と非独立分布のスコアリングの課題に対処する。このフレームワークは一般的なベンチマークと高度なベンチマークでテストされており、特にGPQA、AIME24、AMC23といった複雑なオリンピアードレベルのベンチマークにおいて、ToTやrStarのような既存の手法と比較して、探索効率と問題解決能力の点で優れた性能を示している。

関連論文リスト

Enhancing Test-Time Scaling of Large Language Models with Hierarchical Retrieval-Augmented MCTS [19.394761422323853]
R2-LLMsは,新規で汎用的な階層型検索拡張推論フレームワークである。 R2-LLMsは、二重レベル検索ベースのインコンテキスト学習を統合することにより、推論時間一般化を強化する。 MATH500、GSM8K、OlympiadBench-TOデータセットに関する実証的な評価は、かなりの相対的な改善をもたらす。
論文参考訳（メタデータ） (2025-07-08T00:41:12Z)
Preference-Driven Multi-Objective Combinatorial Optimization with Conditional Computation [10.153136816705542]
POCCOはサブプロブレムのためのモデル構造を適応的に選択できる新しいプラグイン・アンド・プレイフレームワークである。そこで本研究では,勝利と敗退の間のペアワイズな選好を学習する選好駆動最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-10T15:25:06Z)
Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。 FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。 FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文参考訳（メタデータ） (2024-12-12T09:01:18Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-03T20:41:38Z)
Optimized Monte Carlo Tree Search for Enhanced Decision Making in the FrozenLake Environment [0.0]
Monte Carlo Tree Search (MCTS) は複雑な意思決定問題を解決する強力なアルゴリズムである。本稿では,古典的強化学習課題であるFrozenLake環境に適用したMCTS実装を提案する。
論文参考訳（メタデータ） (2024-09-25T05:04:53Z)
Solving General Natural-Language-Description Optimization Problems with Large Language Models [34.50671063271608]
外部ソルバでLLMを増強するOPtLLMという新しいフレームワークを提案する。 OptLLMは自然言語でユーザクエリを受け付け、それらを数学的定式化やプログラミングコードに変換し、解決者を呼び出して結果を計算する。 OptLLMフレームワークのいくつかの機能は、2023年6月から試用されている。
論文参考訳（メタデータ） (2024-07-09T07:11:10Z)
Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文参考訳（メタデータ） (2024-06-16T09:06:17Z)
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B [48.45472563225202]
本稿では,大規模言語モデル (LLM) とモンテカルロ木探索 (MCTS) を革新的に統合した MCT Self-Refine (MCTSr) アルゴリズムを提案する。このアルゴリズムは、セレクション、自己定義、自己評価、バックプロパゲーションの反復的なプロセスを通じてモンテカルロ探索木を構築する。大規模な実験は、オリンピアードレベルの数学問題の解法におけるMCTSrの有効性を示す。
論文参考訳（メタデータ） (2024-06-11T16:01:07Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving [64.38649623473626]
大規模言語モデル(LLM)は人工知能の大幅な進歩を導いた。数学的問題を解く能力を高めるために,textbfSEquential subtextbfGoal textbfOptimization (SEGO) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T17:56:40Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文参考訳（メタデータ） (2023-10-10T01:39:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。