論文の概要: BPP-Search: Enhancing Tree of Thought Reasoning for Mathematical Modeling Problem Solving
- arxiv url: http://arxiv.org/abs/2411.17404v1
- Date: Tue, 26 Nov 2024 13:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:56.814358
- Title: BPP-Search: Enhancing Tree of Thought Reasoning for Mathematical Modeling Problem Solving
- Title(参考訳): BPP-Search:数学的モデリング問題解決のための思考推論のツリー強化
- Authors: Teng Wang, Wing-Yin Yu, Zhenqi He, Zehua Liu, Xiongwei Han, Hailei Gong, Han Wu, Wei Shi, Ruifeng She, Fangzhou Zhu, Tao Zhong,
- Abstract要約: 我々は、完全な数学的モデリングプロセスをキャプチャする包括的ラベルを付したStructuredORデータセットをリリースする。
本稿では,強化学習をツリー・オブ・シント構造に統合するアルゴリズムであるBPP-Searchを提案する。
BPP-Searchは、Chain-of-Thought、Self-Consistency、Tree-of-Thoughtなど、最先端の手法を大幅に上回っている。
- 参考スコア(独自算出の注目度): 11.596474985695679
- License:
- Abstract: LLMs exhibit advanced reasoning capabilities, offering the potential to transform natural language questions into mathematical models. However, existing open-source operations research datasets lack detailed annotations of the modeling process, such as variable definitions, focusing solely on objective values, which hinders reinforcement learning applications. To address this, we release the StructuredOR dataset, annotated with comprehensive labels that capture the complete mathematical modeling process. We further propose BPP-Search, a algorithm that integrates reinforcement learning into a tree-of-thought structure using Beam search, a Process reward model, and a pairwise Preference algorithm. This approach enables efficient exploration of tree structures, avoiding exhaustive search while improving accuracy. Extensive experiments on StructuredOR, NL4OPT, and MAMO-ComplexLP datasets show that BPP-Search significantly outperforms state-of-the-art methods, including Chain-of-Thought, Self-Consistency, and Tree-of-Thought. In tree-based reasoning, BPP-Search also surpasses Process Reward Model combined with Greedy or Beam Search, demonstrating superior accuracy and efficiency, and enabling faster retrieval of correct solutions.
- Abstract(参考訳): LLMは高度な推論能力を示し、自然言語の問題を数学的モデルに変換する可能性を提供している。
しかし、既存のオープンソースオペレーション研究データセットには、変数定義のようなモデリングプロセスの詳細なアノテーションが欠けており、目的値のみに重点を置いており、強化学習を妨げている。
これを解決するために、我々は、完全な数学的モデリングプロセスをキャプチャする包括的なラベルで注釈付けされたStructuredORデータセットをリリースする。
さらに,BPP-Searchを提案する。このアルゴリズムは,ビームサーチ,プロセス報酬モデル,ペアワイズ選好アルゴリズムを用いて,強化学習を思考木構造に統合するアルゴリズムである。
この手法により、木構造を効率的に探索することができ、精度を向上しながら、徹底的な探索を避けることができる。
StructuredOR、NL4OPT、MAMO-ComplexLPデータセットの大規模な実験は、BPP-SearchがChain-of-Thought、Self-Consistency、Tree-of-Thoughtといった最先端の手法を著しく上回っていることを示している。
ツリーベースの推論では、BPP-Searchは、GreedyやBeam Searchと組み合わせたProcess Reward Modelを上回り、精度と効率性を向上し、正しいソリューションの迅速な検索を可能にしている。
関連論文リスト
- Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Unboxing Tree Ensembles for interpretability: a hierarchical
visualization tool and a multivariate optimal re-built tree [0.34530027457862006]
我々は,木組モデルの解釈可能な表現を開発し,その振る舞いに関する貴重な洞察を提供する。
提案モデルは,木組決定関数を近似した浅い解釈可能な木を得るのに有効である。
論文 参考訳(メタデータ) (2023-02-15T10:43:31Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Optimal Counterfactual Explanations in Tree Ensembles [3.8073142980733]
我々は「最適」な説明を目的としたモデルに基づく探索を提唱し、効率的な混合整数プログラミング手法を提案する。
孤立林は我々のフレームワーク内でモデル化され、低いアウトリーチスコアで妥当な説明に焦点を絞ることができることを示す。
論文 参考訳(メタデータ) (2021-06-11T22:44:27Z) - High-Dimensional Bayesian Optimization via Tree-Structured Additive
Models [40.497123136157946]
変数の重複部分集合を持つ低次元関数を合成して高次元目標関数をモデル化する一般化加法モデルを検討する。
私たちの目標は、必要な計算リソースを減らし、より高速なモデル学習を促進することです。
我々は,合成関数と実世界のデータセットに関する様々な実験を通して,本手法の有効性を実証し,議論する。
論文 参考訳(メタデータ) (2020-12-24T03:56:44Z) - Learning Optimal Tree Models Under Beam Search [27.92120639502327]
既存のツリーモデルは、トレーニングテストの相違に悩まされている。
我々はビームサーチとキャリブレーションの下でベイズ最適性の概念を開発する。
本稿では,ビームサーチによる最適木モデル学習のための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-27T17:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。