論文の概要: Rethinking Information Structures in RLHF: Reward Generalization from a
Graph Theory Perspective
- arxiv url: http://arxiv.org/abs/2402.10184v3
- Date: Tue, 20 Feb 2024 18:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:29:04.862979
- Title: Rethinking Information Structures in RLHF: Reward Generalization from a
Graph Theory Perspective
- Title(参考訳): rlhfにおける情報構造再考:グラフ理論の観点からの報酬一般化
- Authors: Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou,
Han Yang, Josef Dai, Xuehai Pan, Yaodong Yang
- Abstract要約: 本稿では,RLHFをテキスト分布上の自動符号化プロセスとして記述する理論的枠組みを提案する。
我々は、誘導ベイズネットワーク(IBN)であるRLHFの報酬モデリング段階における一般化をモデル化するための新しい手法を提案する。
本分析から得られた知見は,従来のRLHF法に比べ,報奨モデルにおける木に基づく情報構造の優位性である。
- 参考スコア(独自算出の注目度): 12.855406539819462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a trilemma in reinforcement learning from human feedback (RLHF): the
incompatibility between highly diverse contexts, low labeling cost, and
reliable alignment performance. Here we aim to mitigate such incompatibility
through the design of dataset information structures during reward modeling,
and meanwhile propose new, generalizable methods of analysis that have wider
applications, including potentially shedding light on goal misgeneralization.
Specifically, we first reexamine the RLHF process and propose a theoretical
framework portraying it as an autoencoding process over text distributions. Our
framework formalizes the RLHF objective of ensuring distributional consistency
between human preference and large language model (LLM) behavior. Based on this
framework, we introduce a new method to model generalization in the reward
modeling stage of RLHF, the induced Bayesian network (IBN). Drawing from random
graph theory and causal analysis, it enables empirically grounded derivation of
generalization error bounds, a key improvement over classical methods of
generalization analysis. An insight from our analysis is the superiority of the
tree-based information structure in reward modeling, compared to chain-based
baselines in conventional RLHF methods. We derive that in complex contexts with
limited data, the tree-based reward model (RM) induces up to $\Theta(\log
n/\log\log n)$ times less variance than chain-based RM where $n$ is the dataset
size. As validation, we demonstrate that on three NLP tasks, the tree-based RM
achieves 65% win rate on average against chain-based baselines. Looking ahead,
we hope to extend the IBN analysis to help understand the phenomenon of goal
misgeneralization.
- Abstract(参考訳): ヒューマンフィードバック(RLHF)からの強化学習には、高度に多様なコンテキスト、低ラベリングコスト、信頼性のあるアライメントパフォーマンスの不適合性がある。
ここでは,報酬モデリングにおけるデータセット情報構造の設計を通じて,このような非互換性を軽減し,一方で,ゴールの非一般化に光を当てる可能性を含む,より広い応用性を持つ新たな汎用的な分析手法を提案する。
具体的には,まずrlhfプロセスを再検討し,テキスト分布上の自動エンコーディングプロセスとして表現する理論的枠組みを提案する。
我々のフレームワークは、人間の好みと大規模言語モデル(LLM)の振る舞いの分布整合性を保証するというRLHFの目的を定式化する。
この枠組みに基づいて、誘導ベイズネットワーク(IBN)であるRLHFの報酬モデリング段階における一般化をモデル化する新しい手法を提案する。
ランダムグラフ理論と因果解析から引き出すと、一般化誤差境界の経験的基底導出が可能となり、古典的一般化解析法よりも重要な改善となる。
本分析から得られた知見は,従来のRLHF法に比べ,報奨モデルにおける木に基づく情報構造の優位性である。
制限されたデータを持つ複雑なコンテキストにおいて、ツリーベースの報酬モデル(rm)は最大で$\theta(\log n/\log\log n)がデータセットサイズであるチェーンベースのrmよりも最大で分散しない。
検証の結果,3つのNLPタスクにおいて,木系RMはチェーン系ベースラインに対して平均65%の勝利率を達成した。
今後は、ISN分析を拡張して、目標誤一般化現象の理解を図りたい。
関連論文リスト
- Can We Theoretically Quantify the Impacts of Local Updates on the Generalization Performance of Federated Learning? [50.03434441234569]
フェデレートラーニング(FL)は、直接データ共有を必要とせず、さまざまなサイトで機械学習モデルをトレーニングする効果により、大きな人気を集めている。
局所的な更新を伴うFLは通信効率のよい分散学習フレームワークであることが様々なアルゴリズムによって示されているが、局所的な更新によるFLの一般化性能は比較的低い。
論文 参考訳(メタデータ) (2024-09-05T19:00:18Z) - Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Graph Out-of-Distribution Generalization via Causal Intervention [69.70137479660113]
本稿では,ノードレベルの分散シフトの下で頑健なグラフニューラルネットワーク(GNN)をトレーニングするための,概念的に単純だが原則化されたアプローチを提案する。
本手法は,環境推定器と熟練GNN予測器を協調する因果推論に基づく新たな学習目標を提案する。
本モデルでは,様々な分散シフトによる一般化を効果的に向上し,グラフOOD一般化ベンチマーク上での最先端の精度を最大27.4%向上させることができる。
論文 参考訳(メタデータ) (2024-02-18T07:49:22Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Out of the Ordinary: Spectrally Adapting Regression for Covariate Shift [12.770658031721435]
本稿では,学習前のニューラル回帰モデルの最後の層の重みを適応させて,異なる分布から得られる入力データを改善する手法を提案する。
本稿では,この軽量なスペクトル適応手法により,合成および実世界のデータセットの分布外性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-29T04:15:58Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Classification of Data Generated by Gaussian Mixture Models Using Deep
ReLU Networks [28.437011792990347]
本稿では,ガウス混合ネットワーク下で発生した$math RMsのデータ二項分類について検討する。
コンバージェンスレートが初めて$d2013xのニューラル解析レートを得る。
結果は、実用的な分類問題におけるディープニューラルネットワークの理論的検証を提供する。
論文 参考訳(メタデータ) (2023-08-15T20:40:42Z) - Topology-aware Robust Optimization for Out-of-distribution
Generalization [18.436575017126323]
アウト・オブ・ディストリビューション(OOD)の一般化は難しい機械学習問題であるが、多くの高スループットアプリケーションで非常に望ましい。
本稿では,分散トポロジを原理的最適化フレームワークにシームレスに統合するトポロジ対応ロバスト最適化(TRO)を提案する。
提案手法の有効性を理論的に実証し, 分類, 回帰, セマンティックセグメンテーションを含む幅広いタスクにおいて, 芸術の状態を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-26T03:48:37Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Optimal Propagation for Graph Neural Networks [51.08426265813481]
最適グラフ構造を学習するための二段階最適化手法を提案する。
また、時間的複雑さをさらに軽減するために、低ランク近似モデルについても検討する。
論文 参考訳(メタデータ) (2022-05-06T03:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。