論文の概要: LADDER: Self-Improving LLMs Through Recursive Problem Decomposition
- arxiv url: http://arxiv.org/abs/2503.00735v2
- Date: Tue, 04 Mar 2025 14:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:23:07.725768
- Title: LADDER: Self-Improving LLMs Through Recursive Problem Decomposition
- Title(参考訳): LADDER:再帰的問題分解による自己改善LDM
- Authors: Toby Simonds, Akira Yoshiyama,
- Abstract要約: LADDERは、大規模言語モデルが問題解決能力を自律的に改善できるフレームワークである。
数学的統合の課題において, LADDERの有効性を実証する。
また、TTRLを導入し、推論時にテスト問題の変種について強化学習を行う。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We introduce LADDER (Learning through Autonomous Difficulty-Driven Example Recursion), a framework which enables Large Language Models to autonomously improve their problem-solving capabilities through self-guided learning by recursively generating and solving progressively simpler variants of complex problems. Unlike prior approaches that require curated datasets or human feedback, LADDER leverages a model's own capabilities to generate easier question variants. We demonstrate LADDER's effectiveness in the subject of mathematical integration, improving Llama 3.2 3B's accuracy from 1% to 82% on undergraduate-level problems and enabling Qwen2.5 7B Deepseek-R1 Distilled to achieve 73% on the MIT Integration Bee qualifying examination. We also introduce TTRL (Test-Time Reinforcement Learning), where we perform reinforcement learning on variants of test problems at inference time. TTRL enables Qwen2.5 7B Deepseek-R1 Distilled to achieve a state-of-the-art score of 90% on the MIT Integration Bee qualifying examination, surpassing OpenAI o1's performance. These results show how self-directed strategic learning can achieve significant capability improvements without relying on architectural scaling or human supervision.
- Abstract(参考訳): LADDER(Learning through autonomous Difficulty-Driven Example Recursion)は,大規模言語モデルにおいて,複雑問題の段階的に単純な変種を再帰的に生成・解決することにより,自己指導型学習による問題解決能力を自律的に向上するフレームワークである。
キュレートされたデータセットや人間のフィードバックを必要とする従来のアプローチとは異なり、LADDERはモデル独自の機能を活用して、より簡単な質問バリアントを生成する。
LADDERの数学的統合における有効性を実証し,Llama 3.2 3Bの精度を1%から82%に改善し,Qwen2.5 7B Deepseek-R1を蒸留し,MIT統合ビー試験の73%を達成した。
また、TTRL(Test-Time Reinforcement Learning)を導入し、推論時にテスト問題の変種について強化学習を行う。
TTRLにより、Qwen2.5 7B Deepseek-R1 DistilledはMIT統合ビー予選で90%の最先端のスコアを獲得し、OpenAI o1のパフォーマンスを上回った。
これらの結果は、アーキテクチャのスケーリングや人的監督に頼ることなく、自己指揮型戦略学習が重要な能力向上を実現する方法を示している。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.94874338927492]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。
本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文 参考訳(メタデータ) (2024-12-18T18:24:47Z) - The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
現在のアルゴリズムはサンプル効率が低く、実用性が制限されている。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z) - A Scalable and Generalized Deep Learning Framework for Anomaly Detection in Surveillance Videos [0.47279903800557493]
ビデオにおける異常検出は、暴力、万引き、破壊など、複雑さ、騒音、多様な活動の性質のために困難である。
既存のアプローチでは、広範囲な再トレーニングなしに、さまざまな異常なタスクにディープラーニングモデルを適用するのに苦労しています。
本研究では,特徴一般化向上のための伝達学習,特徴表現向上のためのモデル融合,マルチタスク分類という,3つの重要なコンポーネントからなる新しいDLフレームワークを導入する。
RLVSデータセット(違反検出)では97.99%、UCFデータセットでは83.59%の精度を達成した。
論文 参考訳(メタデータ) (2024-07-17T22:41:12Z) - Improving Multimodal Learning with Multi-Loss Gradient Modulation [3.082715511775795]
我々は,マルチロス目標を導入し,バランスプロセスをさらに洗練することにより,従来の作業を改善する。
CREMA-Dでは、ResNetエンコーダのバックボーンを持つモデルが、以前の最高値を1.9%から12.4%上回っている。
論文 参考訳(メタデータ) (2024-05-13T17:01:28Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement
Learning [45.73223325256312]
最新のモデルベースRLアルゴリズムで学習した内部モデルが、新しい明らかに異なるタスクを高速に解くために活用できるかどうかを考察する。
我々は,学習世界のモデルのスケーラブルな事前学習と微調整が可能な,サンプル効率の高いオンラインRLのためのフレームワークであるModel-Based Cross-Task Transfer (XTRA)を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:06Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。