論文の概要: UFO-RL: Uncertainty-Focused Optimization for Efficient Reinforcement Learning Data Selection
- arxiv url: http://arxiv.org/abs/2505.12457v1
- Date: Sun, 18 May 2025 15:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.247025
- Title: UFO-RL: Uncertainty-Focused Optimization for Efficient Reinforcement Learning Data Selection
- Title(参考訳): UFO-RL: 効率的な強化学習データ選択のための不確実性を考慮した最適化
- Authors: Yang Zhao, Kai Xiong, Xiao Ding, Li Du, YangouOuyang, Zhouhao Sun, Jiannan Guan, Wenbin Zhang, Bin Liu, Dong Hu, Bing Qin, Ting Liu,
- Abstract要約: 単一パス不確実性推定は、インフォメーションデータインスタンスを識別するために使用され、最大185倍高速なデータ評価を実現する。
UFO-RLによって選択されたデータのわずか10%のトレーニングは、完全なデータトレーニングに匹敵するか、それ以上のパフォーマンスをもたらす。
- 参考スコア(独自算出の注目度): 42.9272996371658
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scaling RL for LLMs is computationally expensive, largely due to multi-sampling for policy optimization and evaluation, making efficient data selection crucial. Inspired by the Zone of Proximal Development (ZPD) theory, we hypothesize LLMs learn best from data within their potential comprehension zone. Addressing the limitation of conventional, computationally intensive multi-sampling methods for data assessment, we introduce UFO-RL. This novel framework uses a computationally efficient single-pass uncertainty estimation to identify informative data instances, achieving up to 185x faster data evaluation. UFO-RL leverages this metric to select data within the estimated ZPD for training. Experiments show that training with just 10% of data selected by UFO-RL yields performance comparable to or surpassing full-data training, reducing overall training time by up to 16x while enhancing stability and generalization. UFO-RL offers a practical and highly efficient strategy for scaling RL fine-tuning of LLMs by focusing learning on valuable data.
- Abstract(参考訳): LLMのスケーリングRLは、主にポリシー最適化と評価のためのマルチサンプリングのため、計算コストが高く、効率的なデータ選択が不可欠である。
近似開発ゾーン(ZPD)理論にインスパイアされた私たちは、LLMが潜在的な理解ゾーン内のデータから最も多くを学ぶことを仮定する。
データアセスメントのための従来の、計算集約的なマルチサンプリング手法の制限に対処するため、UFO-RLを導入する。
この新しいフレームワークは、計算効率のよいシングルパス不確実性推定を使用して、情報的データインスタンスを識別し、最大185倍高速なデータ評価を実現する。
UFO-RLは、この指標を利用して、推定ZPD内のデータをトレーニングのために選択する。
UFO-RLが選択したデータの10%をトレーニングすることで、フルデータトレーニングに匹敵するパフォーマンスが得られ、全体のトレーニング時間を最大16倍に短縮し、安定性と一般化を向上する。
UFO-RLは、価値あるデータに学習を集中させることにより、LLMのRL微調整をスケールするための実用的で高効率な戦略を提供する。
関連論文リスト
- Adaptive Data Exploitation in Deep Reinforcement Learning [50.53705050673944]
深層強化学習(RL)における**データ効率**と**一般化**を強化する強力なフレームワークであるADEPTを紹介する。
具体的には、ADEPTはマルチアーム・バンディット(MAB)アルゴリズムを用いて、異なる学習段階にわたるサンプルデータの使用を適応的に管理する。
Procgen、MiniGrid、PyBulletなどのベンチマークでADEPTをテストする。
論文 参考訳(メタデータ) (2025-01-22T04:01:17Z) - Fisher Information-based Efficient Curriculum Federated Learning with Large Language Models [43.26028399395612]
本稿では,2つの新しい手法を用いたフィッシャー情報に基づく効率的なカリキュラムフェデレート学習フレームワーク(FibecFed)を提案する。
まず,各装置内のデータを適応的にサンプリングし,FL微調整プロセスの有効性を向上させるための漁師情報に基づく手法を提案する。
第2に,グローバルアグリゲーションのための適切なレイヤとLoRAによるローカル更新のためのスパースパラメータを動的に選択する。
論文 参考訳(メタデータ) (2024-09-30T18:12:18Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Train a Real-world Local Path Planner in One Hour via Partially Decoupled Reinforcement Learning and Vectorized Diversity [8.068886870457561]
深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。
実世界におけるそのような応用は、DRLの訓練効率と一般化能力の不足により、非常に制限されている。
アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowで構成されたColorというソリューションが提案されている。
論文 参考訳(メタデータ) (2023-05-07T03:39:31Z) - Auto-FedRL: Federated Hyperparameter Optimization for
Multi-institutional Medical Image Segmentation [48.821062916381685]
Federated Learning(FL)は、明示的なデータ共有を避けながら協調的なモデルトレーニングを可能にする分散機械学習技術である。
本稿では,Auto-FedRLと呼ばれる,効率的な強化学習(RL)に基づくフェデレーションハイパーパラメータ最適化アルゴリズムを提案する。
提案手法の有効性は,CIFAR-10データセットと2つの実世界の医用画像セグメンテーションデータセットの不均一なデータ分割に対して検証される。
論文 参考訳(メタデータ) (2022-03-12T04:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。