論文の概要: ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
- arxiv url: http://arxiv.org/abs/2502.06772v2
- Date: Tue, 11 Mar 2025 02:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:41:08.658532
- Title: ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
- Title(参考訳): ReasonFlux: スケーリング思考テンプレートによる階層的LLM推論
- Authors: Ling Yang, Zhaochen Yu, Bin Cui, Mengdi Wang,
- Abstract要約: 思考テンプレートのスケーリングによる階層的LLM推論は、推論検索空間を効果的に最適化することができる。
i)類似または関連する推論問題に一般化可能な500ほどの高レベルな思考テンプレートを含む構造化・汎用的な思考テンプレートライブラリ,(ii)長いCoTではなく一連の思考テンプレート上で階層的な強化学習を行う,(iii)全く新しい推論スケーリングシステム,の3つの革新を紹介した。
- 参考スコア(独自算出の注目度): 51.633266497799745
- License:
- Abstract: We present that hierarchical LLM reasoning via scaling thought templates can effectively optimize the reasoning search space and outperform the mathematical reasoning capabilities of powerful LLMs like OpenAI o1-preview and DeepSeek V3. We train our ReasonFlux-32B model with only 8 GPUs and introduces three innovations: (i) a structured and generic thought template library, containing around 500 high-level thought templates capable of generalizing to similar or relevant reasoning problems; (ii) performing hierarchical reinforcement learning on a sequence of thought templates instead of long CoTs, optimizing a base LLM to plan out an optimal template trajectory for gradually handling complex problems; (iii) a brand new inference scaling system that enables hierarchical LLM reasoning by adaptively scaling thought templates at inference time. With a template trajectory containing more explainable reasoning structures than DeepSeek-R1 and o3-mini, our ReasonFlux-32B significantly advances math reasoning capabilities to state-of-the-art levels. Notably, on the MATH benchmark, it achieves an accuracy of 91.2% and surpasses o1-preview by 6.7%. On the USA Math Olympiad (AIME) benchmark, ReasonFlux-32B solves an average of 56.7% of problems, surpassing o1-preview and DeepSeek-V3 by 27% and 45%, respectively. Code: https://github.com/Gen-Verse/ReasonFlux
- Abstract(参考訳): 本稿では,階層的なLLM推論をスケール・シンクテンプレートで行うことにより,推論の探索空間を効果的に最適化し,OpenAI o1-previewやDeepSeek V3のような強力なLLMの数学的推論能力より優れていることを示す。
たった8つのGPUでReasonFlux-32Bモデルをトレーニングし、3つのイノベーションを紹介します。
一 類似又は関連する推論問題を一般化することができる500ほどの高レベルの思考テンプレートを含む、構造化された総合的な思考テンプレートライブラリ。
二 長いCoTの代わりに一連の思考テンプレートを用いて階層的強化学習を行い、基礎LLMを最適化して、複雑な問題を段階的に処理するための最適なテンプレート軌道を計画すること。
三 推論時に思考テンプレートを適応的にスケーリングすることにより、階層的LLM推論を可能にする全く新しい推論スケーリングシステム。
DeepSeek-R1やo3-miniよりも説明可能な推論構造を含むテンプレートトラジェクトリによって、ReasonFlux-32Bは、数学推論能力を最先端レベルに格段に向上させています。
特にMATHベンチマークでは、91.2%の精度で、o1-previewを6.7%上回る。
USA Math Olympiad (AIME) ベンチマークでは、ReasonFlux-32B は平均56.7%の問題を解き、それぞれ o1-preview と DeepSeek-V3 を 27% と 45% で上回っている。
コード:https://github.com/Gen-Verse/ReasonFlux
関連論文リスト
- S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。
マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。
第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。
第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T18:59:51Z) - Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models [1.4956870931936515]
RDoLTは大規模言語モデルの推論性能を大幅に向上させる新しいフレームワークである。
RDoLTは、(1)複雑な推論タスクを進歩的複雑性のサブタスクに分解すること、(2)最も有望な推論思考を特定するための高度な選択とスコアリング機構を使用すること、(3)人間の学習を模倣する知識伝達モジュールを統合すること、の3つの主要なイノベーションに基づいて構築されている。
提案手法は,GSM8K,SVAMP,MultiArithm,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
論文 参考訳(メタデータ) (2025-01-03T02:55:44Z) - Towards LLM-based optimization compilers. Can LLMs learn how to apply a single peephole optimization? Reasoning is all LLMs need! [0.9054540533394926]
細調整されていないOpenAI GPT-o1は、微調整されたLlama2とGPT-4oより優れていることを示す。
この利点は, GPT-o1に実装された連鎖推論が原因であることが示唆された。
論文 参考訳(メタデータ) (2024-12-11T18:44:31Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。