論文の概要: Recall-Extend Dynamics: Enhancing Small Language Models through Controlled Exploration and Refined Offline Integration
- arxiv url: http://arxiv.org/abs/2508.16677v1
- Date: Thu, 21 Aug 2025 08:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.113486
- Title: Recall-Extend Dynamics: Enhancing Small Language Models through Controlled Exploration and Refined Offline Integration
- Title(参考訳): Recall-Extend Dynamics: 制御された探索と改善されたオフライン統合を通じて、小さな言語モデルを強化する
- Authors: Zhong Guan, Likang Wu, Hongke Zhao, Jiahui Wang, Le Wu,
- Abstract要約: textitunderlineRecall-textitunderlineExtend textitunderlineDynamics(RED): Controled ExplorationとRefined Offline Integrationによる小さな言語モデルの強化。
- 参考スコア(独自算出の注目度): 37.331625506111514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many existing studies have achieved significant improvements in the reasoning capabilities of large language models (LLMs) through reinforcement learning with verifiable rewards (RLVR), while the enhancement of reasoning abilities in small language models (SLMs) has not yet been sufficiently explored. Combining distilled data from larger models with RLVR on small models themselves is a natural approach, but it still faces various challenges and issues. Therefore, we propose \textit{\underline{R}}ecall-\textit{\underline{E}}xtend \textit{\underline{D}}ynamics(RED): Enhancing Small Language Models through Controlled Exploration and Refined Offline Integration. In this paper, we explore the perspective of varying exploration spaces, balancing offline distillation with online reinforcement learning. Simultaneously, we specifically design and optimize for the insertion problem within offline data. By monitoring the ratio of entropy changes in the model concerning offline and online data, we regulate the weight of offline-SFT, thereby addressing the issues of insufficient exploration space in small models and the redundancy and complexity during the distillation process. Furthermore, to tackle the distribution discrepancies between offline data and the current policy, we design a sample-accuracy-based policy shift mechanism that dynamically chooses between imitating offline distilled data and learning from its own policy.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は,検証可能な報酬付き強化学習(RLVR)によって大幅に改善されているが,小型言語モデル(SLM)における推論能力の強化は十分に研究されていない。
大型モデルからの蒸留データを小型モデル上でRLVRと組み合わせることは自然なアプローチだが、それでもさまざまな課題や問題に直面している。
そこで、我々は、制御された探索と修正されたオフライン統合を通して、小さな言語モデルを強化することを提案する。
本稿では,オフライン蒸留とオンライン強化学習のバランスを取りながら,様々な調査空間の展望を考察する。
同時に、オフラインデータ内の挿入問題の設計と最適化を行う。
オフラインおよびオンラインデータに関するモデルにおけるエントロピー変化の比率をモニタリングすることにより、オフラインSFTの重み付けを規制し、小型モデルにおける探索空間不足の問題と蒸留プロセスにおける冗長性と複雑性に対処する。
さらに, オフラインデータと現在のポリシの分散の相違に対処するため, オフライン蒸留データの模倣と独自のポリシからの学習を動的に選択する, サンプル精度に基づくポリシーシフト機構を設計する。
関連論文リスト
- Extension OL-MDISF: Online Learning from Mix-Typed, Drifted, and Incomplete Streaming Features [13.987655062880089]
混合特徴型を持つ実世界のデータストリームは、従来のパラメトリックモデリングの課題を示す。
時間とコストの制約により、教師付き設定ですべてのデータインスタンスをラベル付けすることは不可能になります。
Mix-typed, Drifted, Incomplete Streaming Features (OL-MDISF) によるオンライン学習は,機能タイプ,データ分散,および監視情報の制限を緩和することを目的としている。
論文 参考訳(メタデータ) (2025-07-12T02:44:25Z) - Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。
MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。
D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-03-26T07:24:34Z) - SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - Boosting Offline Reinforcement Learning with Residual Generative
Modeling [27.50950972741753]
オフライン強化学習(RL)は、オンライン探索なしでオフライン体験を記録して、ほぼ最適ポリシーを学習しようとする。
提案手法は,異なるベンチマークデータセットにおいて,より正確なポリシー近似を学習可能であることを示す。
さらに,提案手法は,マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームHonor of Kingsにおいて,複雑な制御タスクにおいて,より競争力のあるAIエージェントを学習可能であることを示す。
論文 参考訳(メタデータ) (2021-06-19T03:41:14Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。