論文の概要: ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
- arxiv url: http://arxiv.org/abs/2502.06772v1
- Date: Mon, 10 Feb 2025 18:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:39.354482
- Title: ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
- Title(参考訳): ReasonFlux: スケーリング思考テンプレートによる階層的LLM推論
- Authors: Ling Yang, Zhaochen Yu, Bin Cui, Mengdi Wang,
- Abstract要約: 思考テンプレートのスケーリングによる階層的LLM推論は、推論検索空間を効果的に最適化することができる。
i)類似または関連する推論問題に一般化可能な500ほどの高レベルな思考テンプレートを含む構造化・汎用的な思考テンプレートライブラリ,(ii)長いCoTではなく一連の思考テンプレート上で階層的な強化学習を行う,(iii)全く新しい推論スケーリングシステム,の3つの革新を紹介した。
- 参考スコア(独自算出の注目度): 51.633266497799745
- License:
- Abstract: We present that hierarchical LLM reasoning via scaling thought templates can effectively optimize the reasoning search space and outperform the mathematical reasoning capabilities of powerful LLMs like OpenAI o1-preview and DeepSeek V3. We train our ReasonFlux-32B model with only 8 GPUs and introduces three innovations: (i) a structured and generic thought template library, containing around 500 high-level thought templates capable of generalizing to similar or relevant reasoning problems; (ii) performing hierarchical reinforcement learning on a sequence of thought templates instead of long CoTs, optimizing a base LLM to plan out an optimal template trajectory for gradually handling complex problems; (iii) a brand new inference scaling system that enables hierarchical LLM reasoning by adaptively scaling thought templates at inference time. With a template trajectory containing sequential thought templates, our ReasonFlux-32B significantly advances math reasoning capabilities to state-of-the-art levels. Notably, on the MATH benchmark, it achieves an accuracy of 91.2% and surpasses o1-preview by 6.7%. On the USA Math Olympiad (AIME) benchmark, ReasonFlux-32B solves an average of 56.7% of problems, surpassing o1-preview and DeepSeek-V3 by 27% and 45%, respectively. Code: https://github.com/Gen-Verse/ReasonFlux
- Abstract(参考訳): 本稿では,階層的なLLM推論をスケール・シンクテンプレートで行うことにより,推論の探索空間を効果的に最適化し,OpenAI o1-previewやDeepSeek V3のような強力なLLMの数学的推論能力より優れていることを示す。
たった8つのGPUでReasonFlux-32Bモデルをトレーニングし、3つのイノベーションを紹介します。
一 類似又は関連する推論問題を一般化することができる500ほどの高レベルの思考テンプレートを含む、構造化された総合的な思考テンプレートライブラリ。
二 長いCoTの代わりに一連の思考テンプレートを用いて階層的強化学習を行い、基礎LLMを最適化して、複雑な問題を段階的に処理するための最適なテンプレート軌道を計画すること。
三 推論時に思考テンプレートを適応的にスケーリングすることにより、階層的LLM推論を可能にする全く新しい推論スケーリングシステム。
逐次的思考テンプレートを含むテンプレートトラジェクトリにより、ReasonFlux-32Bは、数学推論能力を最先端レベルに格段に向上させる。
特にMATHベンチマークでは、91.2%の精度で、o1-previewを6.7%上回る。
USA Math Olympiad (AIME) ベンチマークでは、ReasonFlux-32B は平均56.7%の問題を解き、それぞれ o1-preview と DeepSeek-V3 を 27% と 45% で上回っている。
コード:https://github.com/Gen-Verse/ReasonFlux
関連論文リスト
- Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - MetRex: A Benchmark for Verilog Code Metric Reasoning Using LLMs [2.0921175288836746]
大規模言語モデル(LLM)は、Verilogコード生成、EDAツールスクリプティング、RTLバグ修正など、様々なハードウェア設計タスクに適用されている。
本稿では,LLMがVerilog設計の合成後メトリクスを推論する能力を評価する。
MetRexは25,868のVerilog HDL設計とそれに対応する合成後測定値(面積,遅延,静的パワー)からなる大規模データセットである。
論文 参考訳(メタデータ) (2024-11-05T19:52:58Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z) - Resprompt: Residual Connection Prompting Advances Multi-Step Reasoning in Large Language Models [73.4425450752596]
チェーン・オブ・シント(CoT)のプロンプトによって、大きな言語モデル(LLM)の推論の可能性は著しく解放された。
しかし、標準的なCoTは複数の推論ステップを必要とする問題では効果が低い。
LLMにおける多段階推論を推し進める新しいプロンプト戦略であるRESPROMPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T08:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。