論文の概要: RL as Regressor: A Reinforcement Learning Approach for Function Approximation
- arxiv url: http://arxiv.org/abs/2508.00174v1
- Date: Thu, 31 Jul 2025 21:39:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.675774
- Title: RL as Regressor: A Reinforcement Learning Approach for Function Approximation
- Title(参考訳): 回帰器としてのRL:関数近似のための強化学習アプローチ
- Authors: Yongchao Huang,
- Abstract要約: 強化学習(RL)問題としてフレーミング回帰を提案する。
モデルの予測をアクションとして扱い、予測誤差に基づいてカスタム報酬信号を定義することでこれを実証する。
我々は,RLフレームワークが回帰問題をうまく解決するだけでなく,目的の定義や学習プロセスの指導において柔軟性も向上することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard regression techniques, while powerful, are often constrained by predefined, differentiable loss functions such as mean squared error. These functions may not fully capture the desired behavior of a system, especially when dealing with asymmetric costs or complex, non-differentiable objectives. In this paper, we explore an alternative paradigm: framing regression as a Reinforcement Learning (RL) problem. We demonstrate this by treating a model's prediction as an action and defining a custom reward signal based on the prediction error, and we can leverage powerful RL algorithms to perform function approximation. Through a progressive case study of learning a noisy sine wave, we illustrate the development of an Actor-Critic agent, iteratively enhancing it with Prioritized Experience Replay, increased network capacity, and positional encoding to enable a capable RL agent for this regression task. Our results show that the RL framework not only successfully solves the regression problem but also offers enhanced flexibility in defining objectives and guiding the learning process.
- Abstract(参考訳): 標準的な回帰手法は強力であるが、平均二乗誤差のような事前定義された微分可能な損失関数によって制約されることが多い。
これらの関数は、特に非対称なコストや複雑で微分不可能な目的を扱う場合、システムの望ましい振る舞いを完全に捉えることができない。
本稿では,Reinforcement Learning(RL)問題としてのフレーミング回帰(framing regression)という代替パラダイムについて検討する。
モデルの予測をアクションとして扱い、予測誤差に基づいて独自の報酬信号を定義することでこれを実証し、関数近似を行うために強力なRLアルゴリズムを利用することができる。
雑音の多い正弦波を学習する進行的ケーススタディを通じて、アクター・クリティカル・エージェントの開発、優先経験再生、ネットワーク容量の増大、位置エンコーディングを反復的に強化し、この回帰作業に有効なRLエージェントを実現する。
その結果、RLフレームワークは回帰問題をうまく解決するだけでなく、目的の定義や学習プロセスの指導における柔軟性も向上していることがわかった。
関連論文リスト
- ReVeal: Self-Evolving Code Agents via Iterative Generation-Verification [6.983144806500892]
ReVealは、明示的な自己検証とツールベースの評価でコード生成をインターリーブするマルチターン強化学習フレームワークである。
モデルの生成と検証機能の共進化をRLトレーニングを通じて促進し、ベースモデルの推論境界を広げる。
また、より深い推論規則へのテストタイムスケーリングを可能にし、推論中にターン数が増加するにつれて、コードは一貫して進化する。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z) - Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
勾配に基づく手法を用いて訓練された深層強化学習(RL)モデルでは、勾配の選択とその学習速度は優れた性能を達成するために不可欠である。
本稿では,学習中のエージェントのパフォーマンスに基づいて学習率を選択するメタ学習手法である深層強化学習(LRRL)の動的学習率を提案する。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Automatic debiasing of neural networks via moment-constrained learning [0.0]
偏差推定器の回帰関数をネーティブに学習し,対象関数のサンプル平均値を取得する。
本稿では,自動脱バイアスの欠点に対処する新しいRR学習手法として,モーメント制約学習を提案する。
論文 参考訳(メタデータ) (2024-09-29T20:56:54Z) - Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文 参考訳(メタデータ) (2024-03-06T18:55:47Z) - Deep Generative Symbolic Regression [83.04219479605801]
記号回帰は、データから簡潔な閉形式数学的方程式を発見することを目的としている。
既存の手法は、探索から強化学習まで、入力変数の数に応じてスケールできない。
本稿では,我々のフレームワークであるDeep Generative Symbolic Regressionのインスタンス化を提案する。
論文 参考訳(メタデータ) (2023-12-30T17:05:31Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Hyperbolic Deep Reinforcement Learning [8.983647543608226]
双曲空間における潜在表現をモデル化する深層強化学習アルゴリズムを提案する。
Procgen と Atari 100K ベンチマークで一般的なオンライン RL アルゴリズムに適用することで,我々のフレームワークを実証的に検証する。
論文 参考訳(メタデータ) (2022-10-04T12:03:04Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。