論文の概要: Scheduling Your LLM Reinforcement Learning with Reasoning Trees
- arxiv url: http://arxiv.org/abs/2510.24832v1
- Date: Tue, 28 Oct 2025 17:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.679246
- Title: Scheduling Your LLM Reinforcement Learning with Reasoning Trees
- Title(参考訳): 推論木を用いたLLM強化学習のスケジューリング
- Authors: Hong Wang, Zhezheng Hao, Jian Luo, Chenxing Wei, Yao Shu, Lei Liu, Qiang Lin, Hande Dong, Jiawei Chen,
- Abstract要約: 本稿では、推論木の構造に基づいて、クエリの学習困難度を測定するReasoning Score(r-score)を紹介する。
rスコアに基づくスケジューリングアルゴリズムであるReasoning Tree Schedule (Re-Schedule)を提案する。
- 参考スコア(独自算出の注目度): 18.720191133993715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using Reinforcement Learning with Verifiable Rewards (RLVR) to optimize Large Language Models (LLMs) can be conceptualized as progressively editing a query's `Reasoning Tree'. This process involves exploring nodes (tokens) and dynamically modifying the model's policy at each node. When combined with data scheduling, this process yields further gains in data efficiency and accuracy. However, existing RLVR data scheduling methods typically rely on path-based metrics to rank queries, overlooking the reasoning tree structures of these queries. In this paper, we introduce a novel metric, namely Reasoning Score (r-score), which measures the query's learning difficulty based on the structure of its reasoning tree. Based on the r-score, we propose the Reasoning Tree Schedule (Re-Schedule), a scheduling algorithm that constructs a curriculum progressing from structurally simple (high r-score) to complex (low r-score) queries. Experiments on six math-reasoning benchmarks show that Re-Schedule significantly improves average accuracy, achieving gains of up to 3.2%. These strong results validate our approach and demonstrate that a structural understanding of the reasoning tree provides a more powerful and principled foundation for RLVR data scheduling.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)を使用して、LLM(Large Language Models)を最適化することは、クエリの'Reasoning Tree'を段階的に編集するものとして概念化できる。
このプロセスでは、ノード(トークン)を探索し、各ノードでのモデルのポリシーを動的に変更する。
データスケジューリングと組み合わせると、このプロセスはデータ効率と精度をさらに向上させる。
しかし、既存のRLVRデータスケジューリング手法は通常、これらのクエリの推論ツリー構造を見渡して、クエリをランク付けするためにパスベースのメトリクスに依存している。
本稿では,その推論木の構造に基づいて,クエリの学習困難度を測定する新しい尺度であるReasoning Score(r-score)を提案する。
rスコアに基づくスケジューリングアルゴリズムであるReasoning Tree Schedule (Re-Schedule)を提案する。
6つの数学推論ベンチマークの実験では、Re-Scheduleは平均精度を大幅に改善し、最大3.2%のゲインを達成している。
これらの強力な結果は我々のアプローチを検証し、推論木の構造的理解がRLVRデータスケジューリングのより強力で原則化された基盤を提供することを示した。
関連論文リスト
- Is Implicit Knowledge Enough for LLMs? A RAG Approach for Tree-based Structures [0.5352699766206808]
大規模言語モデル(LLM)は、文脈内の情報に基づいて応答を生成するのに適している。
Retrieval-Augmented Generation (RAG)は、関連する文書を検索して、モデルのコンテキスト内学習を強化する。
本稿では,木構造からの知識を線形化する手法を提案する。
論文 参考訳(メタデータ) (2025-10-12T20:52:43Z) - ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - BPP-Search: Enhancing Tree of Thought Reasoning for Mathematical Modeling Problem Solving [11.596474985695679]
我々は、完全な数学的モデリングプロセスをキャプチャする包括的ラベルを付したStructuredORデータセットをリリースする。
本稿では,強化学習をツリー・オブ・シント構造に統合するアルゴリズムであるBPP-Searchを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:05:53Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - RLET: A Reinforcement Learning Based Approach for Explainable QA with
Entailment Trees [47.745218107037786]
本稿では,強化学習に基づくEntailment Tree生成フレームワークであるRLETを提案する。
RLETは文の選択と推論生成モジュールによる単一ステップ推論を反復的に行う。
EntailmentBankデータセットの3つの設定の実験では、RLフレームワークを使用することの強みが示されている。
論文 参考訳(メタデータ) (2022-10-31T06:45:05Z) - Entailment Tree Explanations via Iterative Retrieval-Generation Reasoner [56.08919422452905]
我々はIRGR(Iterative Retrieval-Generation Reasoner)と呼ばれるアーキテクチャを提案する。
本モデルでは,テキストの前提からステップバイステップの説明を体系的に生成することにより,与えられた仮説を説明することができる。
前提条件の検索と細分化木の生成に関する既存のベンチマークを上回り、全体の正しさはおよそ300%向上した。
論文 参考訳(メタデータ) (2022-05-18T21:52:11Z) - The RLR-Tree: A Reinforcement Learning Based R-Tree for Spatial Data [33.26284196513858]
B-Treeのような古典的なインデックス構造を機械学習(ML)モデルに置き換えるための学習インデックスが提案されている。
構造やクエリ処理アルゴリズムを変更することなく、従来のR-Treeのクエリ性能を向上させるために、ML技術を使用する根本的に異なる方法を提案します。
論文 参考訳(メタデータ) (2021-03-08T04:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。