論文の概要: From Roots to Rewards: Dynamic Tree Reasoning with RL
- arxiv url: http://arxiv.org/abs/2507.13142v2
- Date: Fri, 18 Jul 2025 14:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 12:36:33.532247
- Title: From Roots to Rewards: Dynamic Tree Reasoning with RL
- Title(参考訳): RootsからRewardsへ:RLを用いた動的ツリー推論
- Authors: Ahmed Bahloul, Simon Malberg,
- Abstract要約: 木構造推論手法は、質問を階層構造に分解し、パラメトリックと検索された知識の信頼度重み付けによる回答を選択することで問題を緩和する。
本稿では,確率的フレームワークの信頼性と現実の質問応答システムに必要な柔軟性のバランスをとる,木構造推論のための新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern language models address complex questions through chain-of-thought (CoT) reasoning (Wei et al., 2023) and retrieval augmentation (Lewis et al., 2021), yet struggle with error propagation and knowledge integration. Tree-structured reasoning methods, particularly the Probabilistic Tree-of-Thought (ProbTree)(Cao et al., 2023) framework, mitigate these issues by decomposing questions into hierarchical structures and selecting answers through confidence-weighted aggregation of parametric and retrieved knowledge (Yao et al., 2023). However, ProbTree's static implementation introduces two key limitations: (1) the reasoning tree is fixed during the initial construction phase, preventing dynamic adaptation to intermediate results, and (2) each node requires exhaustive evaluation of all possible solution strategies, creating computational inefficiency. We present a dynamic reinforcement learning (Sutton and Barto, 2018) framework that transforms tree-based reasoning into an adaptive process. Our approach incrementally constructs the reasoning tree based on real-time confidence estimates, while learning optimal policies for action selection (decomposition, retrieval, or aggregation). This maintains ProbTree's probabilistic rigor while improving both solution quality and computational efficiency through selective expansion and focused resource allocation. The work establishes a new paradigm for treestructured reasoning that balances the reliability of probabilistic frameworks with the flexibility required for real-world question answering systems.
- Abstract(参考訳): 現代の言語モデルは、チェーン・オブ・シークレット(CoT)推論(Wei et al , 2023)と検索強化(Lewis et al , 2021)を通じて複雑な問題に対処するが、誤りの伝播と知識の統合に苦慮する。
木構造推論手法、特に確率的木構造推論(ProbTree)(Cao et al , 2023)フレームワークは、質問を階層構造に分解し、パラメトリックと検索された知識の信頼性重み付けによる回答を選択することにより、これらの問題を緩和する(Yao et al , 2023)。
しかし、ProbTreeの静的実装では、(1)推論ツリーが初期構築段階で固定され、中間結果への動的適応が防止され、(2)各ノードは、可能なすべてのソリューション戦略を徹底的に評価し、計算の非効率性を作成する必要がある。
木に基づく推論を適応的なプロセスに変換する動的強化学習(Sutton and Barto, 2018)フレームワークを提案する。
提案手法は,行動選択のための最適ポリシー(分解,検索,集約)を学習しながら,実時間信頼度推定に基づく推論木を漸進的に構築する。
これはProbTreeの確率的厳密さを維持しつつ、選択的な拡張とリソース割り当てによるソリューションの品質と計算効率を改善している。
この研究は、確率的フレームワークの信頼性と現実の質問応答システムに必要な柔軟性のバランスをとる、木構造推論の新しいパラダイムを確立する。
関連論文リスト
- Learning Decision Trees as Amortized Structure Inference [59.65621207449269]
本稿では,予測決定木アンサンブルを学習するためのハイブリッドアモータイズされた構造推論手法を提案する。
提案手法であるDT-GFNは,標準分類ベンチマークにおける最先端決定木やディープラーニング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-10T07:05:07Z) - Provably optimal decision trees with arbitrary splitting rules in polynomial time [1.9405875431318445]
決定木の最初の公理的定義を提供する。
公理を満たす決定木を適切な決定木と呼ぶ。
最適決定木問題の解法として,初めて証明可能な正解時間アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-03-03T12:14:53Z) - Learning accurate and interpretable tree-based models [27.203303726977616]
我々は、同じドメインからデータに繰り返しアクセスする木に基づく学習アルゴリズムを設計するためのアプローチを開発する。
本稿では,よく使われるエントロピーとジニ不純物に基づく基準を補間するトップダウンアルゴリズムにおいて,ノード分割基準の新しいパラメータ化クラスを提案する。
我々は、ランダムな森林や傾斜した木など、一般的な木に基づくアンサンブルのチューニングに結果を拡張した。
論文 参考訳(メタデータ) (2024-05-24T20:10:10Z) - Divide, Conquer, Combine Bayesian Decision Tree Sampling [1.1879716317856945]
決定木は、その柔軟性と解釈可能性のために予測モデルとして一般的に使用される。
本稿では,ベイズ推定手法を用いて決定木予測の不確かさを定量化する。
論文 参考訳(メタデータ) (2024-03-26T23:14:15Z) - Learning a Decision Tree Algorithm with Transformers [75.96920867382859]
メタ学習によってトレーニングされたトランスフォーマーベースのモデルであるMetaTreeを導入し、強力な決定木を直接生成する。
我々は、多くのデータセットに欲求決定木とグローバルに最適化された決定木の両方を適合させ、MetaTreeを訓練して、強力な一般化性能を実現する木のみを生成する。
論文 参考訳(メタデータ) (2024-02-06T07:40:53Z) - On the Pointwise Behavior of Recursive Partitioning and Its Implications
for Heterogeneous Causal Effect Estimation [8.394633341978007]
決定木学習は、ポイントワイズ推論にますます使われている。
適応決定木は、非消滅確率のノルムにおける収束の収束率を達成できないことを示す。
ランダムな森林は状況を改善することができ、貧弱な樹木をほぼ最適な手順に変えることができる。
論文 参考訳(メタデータ) (2022-11-19T21:28:30Z) - RLET: A Reinforcement Learning Based Approach for Explainable QA with
Entailment Trees [47.745218107037786]
本稿では,強化学習に基づくEntailment Tree生成フレームワークであるRLETを提案する。
RLETは文の選択と推論生成モジュールによる単一ステップ推論を反復的に行う。
EntailmentBankデータセットの3つの設定の実験では、RLフレームワークを使用することの強みが示されている。
論文 参考訳(メタデータ) (2022-10-31T06:45:05Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z) - Generalized and Scalable Optimal Sparse Decision Trees [56.35541305670828]
様々な目的に対して最適な決定木を生成する手法を提案する。
また,連続変数が存在する場合に最適な結果が得られるスケーラブルなアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-06-15T19:00:11Z) - Parameterizing Branch-and-Bound Search Trees to Learn Branching Policies [76.83991682238666]
Branch and Bound (B&B) は、Mixed-Integer Linear Programming Problem (MILP) の解法として一般的に用いられる木探索法である。
本稿では,新しい模倣学習フレームワークを提案し,分岐を表現するための新しい入力機能とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-12T17:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。