論文の概要: RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems
- arxiv url: http://arxiv.org/abs/2510.02263v1
- Date: Thu, 02 Oct 2025 17:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.263174
- Title: RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems
- Title(参考訳): RLAD: 推論問題を解決するための抽象化を見つけるためのLLMのトレーニング
- Authors: Yuxiao Qu, Anikait Singh, Yoonho Lee, Amrith Setlur, Ruslan Salakhutdinov, Chelsea Finn, Aviral Kumar,
- Abstract要約: 問題が発生したら、複数の抽象化を提案できるモデルをトレーニングし、続いてソリューション構築のインセンティブを与えるRLを作ります。
この結果、RLトレーニングパラダイムはRLADと呼ばれ、抽象化ジェネレータとソリューションジェネレータを共同で訓練する。
我々は、大規模なテスト予算で多くのソリューションを生成するよりも、より多くのテスト時間計算を抽象化の生成に割り当てることが、パフォーマンスに有益であることを示しています。
- 参考スコア(独自算出の注目度): 98.98963933669751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning requires going beyond pattern matching or memorization of solutions to identify and implement "algorithmic procedures" that can be used to deduce answers to hard problems. Doing so requires realizing the most relevant primitives, intermediate results, or shared procedures, and building upon them. While RL post-training on long chains of thought ultimately aims to uncover this kind of algorithmic behavior, most reasoning traces learned by large models fail to consistently capture or reuse procedures, instead drifting into verbose and degenerate exploration. To address more effective reasoning, we introduce reasoning abstractions: concise natural language descriptions of procedural and factual knowledge that guide the model toward learning successful reasoning. We train models to be capable of proposing multiple abstractions given a problem, followed by RL that incentivizes building a solution while using the information provided by these abstractions. This results in a two-player RL training paradigm, abbreviated as RLAD, that jointly trains an abstraction generator and a solution generator. This setup effectively enables structured exploration, decouples learning signals of abstraction proposal and solution generation, and improves generalization to harder problems. We also show that allocating more test-time compute to generating abstractions is more beneficial for performance than generating more solutions at large test budgets, illustrating the role of abstractions in guiding meaningful exploration.
- Abstract(参考訳): 推論は、難しい問題に対する回答を導き出すのに使える"アルゴリズムの手続き"を識別し、実装するために、ソリューションのパターンマッチングや記憶以上のものを必要とします。
そうするには、最も関連するプリミティブ、中間結果、あるいは共有プロシージャを実現し、それらに基づいて構築する必要があります。
長い思考の連鎖に関するRLのポストトレーニングは、究極的にはこの種のアルゴリズムの振る舞いを明らかにすることを目的としているが、大きなモデルによって学習されたほとんどの推論トレースは、手順を一貫して捕捉または再利用せず、冗長で退化した探索へと流れていく。
より効果的な推論に対処するために、我々は推論の抽象化を導入し、手続き的および事実的知識の自然言語記述を簡潔に記述し、モデルが推論を成功させるのを導く。
問題を与えられた複数の抽象化を提案することができるモデルをトレーニングし、続いてこれらの抽象化が提供する情報を使用しながらソリューションを構築する動機付けを行うRLを学習する。
この結果、RLトレーニングパラダイムはRLADと呼ばれ、抽象化ジェネレータとソリューションジェネレータを共同で訓練する。
この設定により、構造化された探索を効果的に実現し、抽象提案と解生成の学習信号を分離し、より難しい問題への一般化を改善する。
また、大規模なテスト予算で多くのソリューションを生成するよりも、より多くのテスト時間計算を抽象化に割り当てることの方が、パフォーマンスに有益であることを示し、意味のある探索を導く上での抽象化の役割を明らかにします。
関連論文リスト
- AR$^2$: Adversarial Reinforcement Learning for Abstract Reasoning in Large Language Models [12.484537674896908]
本稿では,大規模言語モデル (LLM) の抽象化能力を高めるために設計された新しいフレームワークである AR$2$ (Adversarial Reinforcement Learning for Abstract Reasoning) を提案する。
AR$2$は、基本ロジックを変更することなく、カーネル問題を物語に富んだ、挑戦的な記述に変換するために教師モデルを採用している。
学生符号化モデルは、基礎となる計算カーネルを抽出することにより、これらの複雑な物語問題を解決するために訓練される。
論文 参考訳(メタデータ) (2025-08-27T17:26:44Z) - AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking [38.8730008545358]
大規模言語モデル(LLM)は、しばしばその推論に頑健さを欠いている。
このアプローチは、推論の問題に重点を置いています。
この抽象化プロセスは、単に教師付き微調整よりも強化学習(RL)によりより良く得られる。
論文 参考訳(メタデータ) (2025-06-09T13:34:50Z) - Disentangling Memory and Reasoning Ability in Large Language Models [97.26827060106581]
本稿では、複雑な推論プロセスを2つの異なる明確なアクションに分解する新しい推論パラダイムを提案する。
実験の結果, この分解によりモデル性能が向上し, 推論プロセスの解釈可能性も向上することがわかった。
論文 参考訳(メタデータ) (2024-11-20T17:55:38Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:22:29Z) - A Theory of Abstraction in Reinforcement Learning [18.976500531441346]
この論文では、強化学習における抽象論について述べる。
最初に、抽象化のプロセスを実行する関数に対して、3つのdesiderataを提供します。
次に、エージェントがこれらのデシダータに従って抽象化を学習する方法を明確にする、新しいアルゴリズムと分析のスイートを提示します。
論文 参考訳(メタデータ) (2022-03-01T12:46:28Z) - Learning Abstract Models for Strategic Exploration and Fast Reward
Transfer [85.19766065886422]
我々は,抽象状態のマルコフ決定過程(MDP)を正確に学習し,複雑なエラーを避ける。
本手法は,最も難易度の高い3つのアーケード学習環境ゲームにおいて,強力な結果をもたらす。
学習した抽象MDPを新しい報酬関数に再利用することができ、スクラッチから訓練されたモデルフリーメソッドよりも1000倍少ないサンプルで高い報酬が得られる。
論文 参考訳(メタデータ) (2020-07-12T03:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。