論文の概要: Reward Generalization in RLHF: A Topological Perspective
- arxiv url: http://arxiv.org/abs/2402.10184v6
- Date: Wed, 11 Sep 2024 02:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 21:47:34.629439
- Title: Reward Generalization in RLHF: A Topological Perspective
- Title(参考訳): RLHFにおける逆一般化 : トポロジカル視点
- Authors: Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou, Yang Han, Josef Dai, Xuehai Pan, Yaodong Yang,
- Abstract要約: 本稿では,人間からのフィードバックによる強化学習における報酬一般化の理論的枠組みを紹介する。
木に基づく報酬モデルでは,ベースライン法に対して平均65%の勝利率が得られることを示す。
- 参考スコア(独自算出の注目度): 11.860984070348348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing alignment methods share a common topology of information flow, where reward information is collected from humans, modeled with preference learning, and used to tune language models. However, this shared topology has not been systematically characterized, nor have its alternatives been thoroughly explored, leaving the problems of low data efficiency and unreliable generalization unaddressed. As a solution, we introduce a theoretical framework for investigating reward generalization in reinforcement learning from human feedback (RLHF), focusing on the topology of information flow at both macro and micro levels. At the macro level, we portray the RLHF information flow as an autoencoding process over behavior distributions, formalizing the RLHF objective of distributional consistency between human preference and model behavior. At the micro level, we present induced Bayesian networks as a theory of reward generalization in RLHF, introducing fine-grained dataset topologies into generalization bounds. Combining analysis on both levels, we propose reward modeling from tree-structured preference information. It is shown to reduce reward uncertainty by up to $\Theta(\log n/\log\log n)$ times compared to baselines, where $n$ is the dataset size. Validation on three NLP tasks shows that our tree-based reward model achieves an average win rate of 65% against baseline methods, thus improving reward generalization for free via topology design.
- Abstract(参考訳): 既存のアライメント手法は情報フローの共通トポロジーを共有しており、報酬情報は人間から収集され、好みの学習でモデル化され、言語モデルをチューニングするために使用される。
しかし、この共有トポロジは体系的に特徴づけられておらず、またその代替案が徹底的に検討されることもなく、低データ効率と信頼性の低い一般化の問題が未解決のまま残されている。
そこで本研究では,人間からのフィードバック(RLHF)に基づく強化学習における報酬一般化の理論的枠組みを提案し,マクロレベルとマイクロレベルの情報フローのトポロジに着目した。
マクロレベルでは、RLHF情報フローを行動分布上の自己符号化プロセスとして表現し、人間の嗜好とモデル行動の間の分布整合性というRLHFの目的を定式化する。
マイクロレベルでは、RLHFにおける報酬一般化の理論としてベイズネットワークを誘導し、詳細なデータセットトポロジを一般化境界に導入する。
両レベルの分析を組み合わせることで,木構造的嗜好情報から報酬をモデル化する。
これは、$n$がデータセットサイズであるベースラインと比較して最大$\Theta(\log n/\log \log n)$倍の報酬の不確実性を減少させることが示されている。
3つのNLPタスクに対する検証の結果,木に基づく報酬モデルでは,ベースライン法に対して平均65%の勝利率が得られることが示され,トポロジー設計による報酬の一般化が向上した。
関連論文リスト
- Can We Theoretically Quantify the Impacts of Local Updates on the Generalization Performance of Federated Learning? [50.03434441234569]
フェデレートラーニング(FL)は、直接データ共有を必要とせず、さまざまなサイトで機械学習モデルをトレーニングする効果により、大きな人気を集めている。
局所的な更新を伴うFLは通信効率のよい分散学習フレームワークであることが様々なアルゴリズムによって示されているが、局所的な更新によるFLの一般化性能は比較的低い。
論文 参考訳(メタデータ) (2024-09-05T19:00:18Z) - Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Graph Out-of-Distribution Generalization via Causal Intervention [69.70137479660113]
本稿では,ノードレベルの分散シフトの下で頑健なグラフニューラルネットワーク(GNN)をトレーニングするための,概念的に単純だが原則化されたアプローチを提案する。
本手法は,環境推定器と熟練GNN予測器を協調する因果推論に基づく新たな学習目標を提案する。
本モデルでは,様々な分散シフトによる一般化を効果的に向上し,グラフOOD一般化ベンチマーク上での最先端の精度を最大27.4%向上させることができる。
論文 参考訳(メタデータ) (2024-02-18T07:49:22Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Out of the Ordinary: Spectrally Adapting Regression for Covariate Shift [12.770658031721435]
本稿では,学習前のニューラル回帰モデルの最後の層の重みを適応させて,異なる分布から得られる入力データを改善する手法を提案する。
本稿では,この軽量なスペクトル適応手法により,合成および実世界のデータセットの分布外性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-29T04:15:58Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Classification of Data Generated by Gaussian Mixture Models Using Deep
ReLU Networks [28.437011792990347]
本稿では,ガウス混合ネットワーク下で発生した$math RMsのデータ二項分類について検討する。
コンバージェンスレートが初めて$d2013xのニューラル解析レートを得る。
結果は、実用的な分類問題におけるディープニューラルネットワークの理論的検証を提供する。
論文 参考訳(メタデータ) (2023-08-15T20:40:42Z) - Topology-aware Robust Optimization for Out-of-distribution
Generalization [18.436575017126323]
アウト・オブ・ディストリビューション(OOD)の一般化は難しい機械学習問題であるが、多くの高スループットアプリケーションで非常に望ましい。
本稿では,分散トポロジを原理的最適化フレームワークにシームレスに統合するトポロジ対応ロバスト最適化(TRO)を提案する。
提案手法の有効性を理論的に実証し, 分類, 回帰, セマンティックセグメンテーションを含む幅広いタスクにおいて, 芸術の状態を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-26T03:48:37Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Optimal Propagation for Graph Neural Networks [51.08426265813481]
最適グラフ構造を学習するための二段階最適化手法を提案する。
また、時間的複雑さをさらに軽減するために、低ランク近似モデルについても検討する。
論文 参考訳(メタデータ) (2022-05-06T03:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。