論文の概要: What is the objective of reasoning with reinforcement learning?
- arxiv url: http://arxiv.org/abs/2510.13651v1
- Date: Wed, 15 Oct 2025 15:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.727504
- Title: What is the objective of reasoning with reinforcement learning?
- Title(参考訳): 強化学習による推論の目的は何か?
- Authors: Damek Davis, Benjamin Recht,
- Abstract要約: 二つの報酬を持つ大言語モデルにおける強化学習のためのいくつかの一般的なアルゴリズムは、プロンプトが与えられた正しい解の確率のモノトーン変換の勾配として見なせることを示す。
- 参考スコア(独自算出の注目度): 7.728587479013023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that several popular algorithms for reinforcement learning in large language models with binary rewards can be viewed as stochastic gradient ascent on a monotone transform of the probability of a correct answer given a prompt. In particular, the transformation associated with rejection sampling algorithms is the logarithm and that associated with the GRPO algorithm is the arcsine of the square root.
- Abstract(参考訳): 二つの報酬を持つ大言語モデルにおける強化学習のためのいくつかの一般的なアルゴリズムは、正しい解の確率の単調な変換に基づく確率勾配とみなすことができる。
特に、拒絶サンプリングアルゴリズムに関連する変換は対数であり、GRPOアルゴリズムに関連する変換は平方根の弧である。
関連論文リスト
- The Gradient of Algebraic Model Counting [9.742948699856427]
代数的モデルの数え方に関しても、全く同じ半順序的な視点が学習にも当てはまることを示す。
半環のキャンセルと順序付けが、よりメモリ効率の良いバックプロパゲーションにどのように活用できるかを示す。
論文 参考訳(メタデータ) (2025-02-25T17:57:55Z) - The ODE Method for Stochastic Approximation and Reinforcement Learning with Markovian Noise [17.493808856903303]
近似アルゴリズムを解析する根本的な課題は、その安定性を確立することである。
我々は、マルティンゲール差分雑音設定からマルコフ雑音設定へ有界な安定性に対するボルカール・メインの定理を拡張した。
論文 参考訳(メタデータ) (2024-01-15T17:20:17Z) - GFN-SR: Symbolic Regression with Generative Flow Networks [0.9208007322096533]
近年,DSR(Deep symbolic regression)がこの分野の一般的な手法として登場している。
ディープラーニングを用いてSRにアプローチするための代替フレームワーク(GFN-SR)を提案する。
GFN-SRは多種多様な最適表現を生成することができる。
論文 参考訳(メタデータ) (2023-12-01T07:38:05Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Generalizing Backpropagation for Gradient-Based Interpretability [103.2998254573497]
モデルの勾配は、半環を用いたより一般的な定式化の特別な場合であることを示す。
この観測により、バックプロパゲーションアルゴリズムを一般化し、他の解釈可能な統計を効率的に計算することができる。
論文 参考訳(メタデータ) (2023-07-06T15:19:53Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Minimizing the Outage Probability in a Markov Decision Process [0.0]
本稿では,ゲインが与えられた値よりも大きい確率という,代替目的の最適化を可能にするアルゴリズムを提案する。
提案アルゴリズムは値反復アルゴリズムの拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-02-28T16:26:23Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Bayesian Recurrent Units and the Forward-Backward Algorithm [91.39701446828144]
ベイズの定理を用いることで、ユニットワイド・リカレンスとフォワード・バックワードアルゴリズムに類似した後方再帰を導出する。
その結果得られたベイジアン再帰ユニットは、ディープラーニングフレームワーク内で再帰ニューラルネットワークとして統合することができる。
音声認識の実験は、最先端の繰り返しアーキテクチャの最後に派生したユニットを追加することで、訓練可能なパラメータの点で非常に低コストで性能を向上させることを示唆している。
論文 参考訳(メタデータ) (2022-07-21T14:00:52Z) - Learning Non-Vacuous Generalization Bounds from Optimization [8.294831479902658]
最適化の観点からは、単純だが空でない一般化を示す。
我々は、勾配アルゴリズムによってアクセスされた仮説セットが本質的にフラクタル的であることを利用して、この目標を達成する。
数値解析により,現代のニューラルネットワークにおいて,本手法が有意な一般化を保証することが実証された。
論文 参考訳(メタデータ) (2022-06-09T08:59:46Z) - Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。