論文の概要: Learning Guarantee of Reward Modeling Using Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2505.06601v1
- Date: Sat, 10 May 2025 11:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.936338
- Title: Learning Guarantee of Reward Modeling Using Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークを用いたリワードモデリングの学習保証
- Authors: Yuanhang Luo, Yeheng Ge, Ruijian Han, Guohao Shen,
- Abstract要約: 深層ニューラルネットワークを用いたペアワイズ比較データを用いた報酬モデリングの学習理論について検討する。
我々は、非パラメトリックな設定で、深い報酬推定を行うための新しい非漸近的後悔を確立する。
- 参考スコア(独自算出の注目度): 1.1088875073103415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study the learning theory of reward modeling with pairwise comparison data using deep neural networks. We establish a novel non-asymptotic regret bound for deep reward estimators in a non-parametric setting, which depends explicitly on the network architecture. Furthermore, to underscore the critical importance of clear human beliefs, we introduce a margin-type condition that assumes the conditional winning probability of the optimal action in pairwise comparisons is significantly distanced from 1/2. This condition enables a sharper regret bound, which substantiates the empirical efficiency of Reinforcement Learning from Human Feedback and highlights clear human beliefs in its success. Notably, this improvement stems from high-quality pairwise comparison data implied by the margin-type condition, is independent of the specific estimators used, and thus applies to various learning algorithms and models.
- Abstract(参考訳): 本研究では,深層ニューラルネットワークを用いたペアワイズ比較データを用いた報酬モデリングの学習理論について検討する。
我々は、非パラメトリックな設定で深い報酬推定を行うための新しい非漸近的後悔を、ネットワークアーキテクチャに明示的に依存する形で確立する。
さらに、明確な人間の信念の重要さを明らかにするために、ペアワイズ比較における最適な行動の条件付き勝利確率が1/2からかなり離れていると仮定するマージン型条件を導入する。
この条件は、人間のフィードバックからの強化学習の実証的効率を実証し、その成功に対する明確な人間の信念を強調する、よりシャープな後悔の束縛を可能にする。
この改善は、マージン型条件によって入力される高品質なペアワイズ比較データに起因し、使用する特定の推定値に依存しないため、様々な学習アルゴリズムやモデルに適用できる。
関連論文リスト
- Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - A Probabilistic Approach for Model Alignment with Human Comparisons [7.6656660956453635]
本研究では,従来の教師あり学習プロセスを強化できる条件を解析するための理論的枠組みを開発する。
本稿では,機械学習と人間のフィードバックを結びつける2段階の"Supervised Learning+Learning from Human Feedback"(SL+LHF)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-16T02:19:21Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Relational Surrogate Loss Learning [41.61184221367546]
本稿では、評価指標を近似するためにディープニューラルネットワークを用いる代理損失学習を再考する。
本稿では,サロゲート損失と測定値の関係を直接的に維持することを示す。
私たちの方法は最適化がずっと簡単で、大幅な効率と性能向上を享受しています。
論文 参考訳(メタデータ) (2022-02-26T17:32:57Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Residual Error: a New Performance Measure for Adversarial Robustness [85.0371352689919]
ディープラーニングの広く普及を制限する大きな課題は、敵の攻撃に対する脆弱さである。
本研究は,ディープニューラルネットワークの対角強靭性を評価するための新しい性能尺度である残留誤差の概念を提示する。
画像分類を用いた実験結果から,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2021-06-18T16:34:23Z) - Analytically Tractable Inference in Deep Neural Networks [0.0]
Tractable Approximate Inference (TAGI)アルゴリズムは、浅いフルコネクテッドニューラルネットワークのバックプロパゲーションに対する実行可能でスケーラブルな代替手段であることが示された。
従来のディープニューラルネットワークアーキテクチャをトレーニングするために、TAGIがバックプロパゲーションのパフォーマンスとどのように一致するか、または上回るかを実証しています。
論文 参考訳(メタデータ) (2021-03-09T14:51:34Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - A General Pairwise Comparison Model for Extremely Sparse Networks [5.298287413134346]
ネットワークの間隔が最小に近い条件下で、被検者の潜伏スコアベクトルの最大確率推定器が一様であることを示す。
この結果から, 大規模対比較ネットワークにおける推定における最大確率推定器の正当性が保証された。
論文 参考訳(メタデータ) (2020-02-20T16:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。