論文の概要: Rethinking Information Structures in RLHF: Reward Generalization from a
Graph Theory Perspective
- arxiv url: http://arxiv.org/abs/2402.10184v3
- Date: Tue, 20 Feb 2024 18:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:29:04.862979
- Title: Rethinking Information Structures in RLHF: Reward Generalization from a
Graph Theory Perspective
- Title(参考訳): rlhfにおける情報構造再考:グラフ理論の観点からの報酬一般化
- Authors: Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou,
Han Yang, Josef Dai, Xuehai Pan, Yaodong Yang
- Abstract要約: 本稿では,RLHFをテキスト分布上の自動符号化プロセスとして記述する理論的枠組みを提案する。
我々は、誘導ベイズネットワーク(IBN)であるRLHFの報酬モデリング段階における一般化をモデル化するための新しい手法を提案する。
本分析から得られた知見は,従来のRLHF法に比べ,報奨モデルにおける木に基づく情報構造の優位性である。
- 参考スコア(独自算出の注目度): 12.855406539819462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a trilemma in reinforcement learning from human feedback (RLHF): the
incompatibility between highly diverse contexts, low labeling cost, and
reliable alignment performance. Here we aim to mitigate such incompatibility
through the design of dataset information structures during reward modeling,
and meanwhile propose new, generalizable methods of analysis that have wider
applications, including potentially shedding light on goal misgeneralization.
Specifically, we first reexamine the RLHF process and propose a theoretical
framework portraying it as an autoencoding process over text distributions. Our
framework formalizes the RLHF objective of ensuring distributional consistency
between human preference and large language model (LLM) behavior. Based on this
framework, we introduce a new method to model generalization in the reward
modeling stage of RLHF, the induced Bayesian network (IBN). Drawing from random
graph theory and causal analysis, it enables empirically grounded derivation of
generalization error bounds, a key improvement over classical methods of
generalization analysis. An insight from our analysis is the superiority of the
tree-based information structure in reward modeling, compared to chain-based
baselines in conventional RLHF methods. We derive that in complex contexts with
limited data, the tree-based reward model (RM) induces up to $\Theta(\log
n/\log\log n)$ times less variance than chain-based RM where $n$ is the dataset
size. As validation, we demonstrate that on three NLP tasks, the tree-based RM
achieves 65% win rate on average against chain-based baselines. Looking ahead,
we hope to extend the IBN analysis to help understand the phenomenon of goal
misgeneralization.
- Abstract(参考訳): ヒューマンフィードバック(RLHF)からの強化学習には、高度に多様なコンテキスト、低ラベリングコスト、信頼性のあるアライメントパフォーマンスの不適合性がある。
ここでは,報酬モデリングにおけるデータセット情報構造の設計を通じて,このような非互換性を軽減し,一方で,ゴールの非一般化に光を当てる可能性を含む,より広い応用性を持つ新たな汎用的な分析手法を提案する。
具体的には,まずrlhfプロセスを再検討し,テキスト分布上の自動エンコーディングプロセスとして表現する理論的枠組みを提案する。
我々のフレームワークは、人間の好みと大規模言語モデル(LLM)の振る舞いの分布整合性を保証するというRLHFの目的を定式化する。
この枠組みに基づいて、誘導ベイズネットワーク(IBN)であるRLHFの報酬モデリング段階における一般化をモデル化する新しい手法を提案する。
ランダムグラフ理論と因果解析から引き出すと、一般化誤差境界の経験的基底導出が可能となり、古典的一般化解析法よりも重要な改善となる。
本分析から得られた知見は,従来のRLHF法に比べ,報奨モデルにおける木に基づく情報構造の優位性である。
制限されたデータを持つ複雑なコンテキストにおいて、ツリーベースの報酬モデル(rm)は最大で$\theta(\log n/\log\log n)がデータセットサイズであるチェーンベースのrmよりも最大で分散しない。
検証の結果,3つのNLPタスクにおいて,木系RMはチェーン系ベースラインに対して平均65%の勝利率を達成した。
今後は、ISN分析を拡張して、目標誤一般化現象の理解を図りたい。
関連論文リスト
- Graph Out-of-Distribution Generalization via Causal Intervention [74.77883794668324]
本稿では,ノードレベルの分散シフトの下で頑健なグラフニューラルネットワーク(GNN)をトレーニングするための,概念的に単純だが原則化されたアプローチを提案する。
本手法は,環境推定器と熟練GNN予測器を協調する因果推論に基づく新たな学習目標を提案する。
本モデルでは,様々な分散シフトによる一般化を効果的に向上し,グラフOOD一般化ベンチマーク上での最先端の精度を最大27.4%向上させることができる。
論文 参考訳(メタデータ) (2024-02-18T07:49:22Z) - Mitigating Reward Hacking via Information-Theoretic Reward Modeling [70.26019860948114]
本稿では,報酬モデリングのための汎用的で堅牢なフレームワークであるInfoRMを提案する。
我々は,潜伏空間における過最適化と外れ値の相関を同定し,報酬過最適化を検出するための有望なツールとしてInfoRMを確立した。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Revealing Decurve Flows for Generalized Graph Propagation [108.80758541147418]
本研究は,有向グラフと重み付きグラフを用いて,m文を一般化した伝播を定義することによって,従来のメッセージパッシング(中心からグラフ学習)の限界に対処する。
この分野ではじめて、データセットにおける学習された伝播パターンの予備的な探索を含む。
論文 参考訳(メタデータ) (2024-02-13T14:13:17Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z) - The Eigenlearning Framework: A Conservation Law Perspective on Kernel
Regression and Wide Neural Networks [1.6519302768772166]
テストリスクとカーネルリッジ回帰の他の一般化指標について、簡単なクローズドフォーム推定を導出する。
関数の正規直交基底を学習するKRRの能力を制限するシャープな保存法則を同定する。
論文 参考訳(メタデータ) (2021-10-08T06:32:07Z) - Relating Graph Neural Networks to Structural Causal Models [17.276657786213015]
因果関係は、興味のある変数とその力学関係に関する情報を伝達する構造因果モデル(SCM)によって記述することができる。
本稿では,GNNとSCMの新たな接続を確立する理論解析について述べる。
次に、GNNに基づく因果推論のための新しいモデルクラスを構築し、因果効果の同定に十分である。
論文 参考訳(メタデータ) (2021-09-09T11:16:31Z) - A Neural Tangent Kernel Perspective of GANs [0.0]
GAN(Generative Adversarial Networks)の理論解析は、任意に大きな差別者の族を仮定する。
我々は,この分析の枠組みがあまりに単純すぎて,GANトレーニングを適切に分析できないことを示した。
我々は、無限幅ニューラルネットワークの理論を利用して、幅広い敵の損失に対するニューラルディミネータートレーニングをモデル化する。
論文 参考訳(メタデータ) (2021-06-10T07:46:02Z) - Explaining a Series of Models by Propagating Local Feature Attributions [9.66840768820136]
複数の機械学習モデルを含むパイプラインは、多くの領域でパフォーマンスが向上するが、理解が難しい。
Shapley値への接続に基づいて、モデルの複雑なパイプラインを通じてローカル機能属性を伝播させるフレームワークを紹介します。
本フレームワークにより,アルツハイマー病および乳癌の組織学的診断における遺伝子発現特徴群に基づく高次結論の導出が可能となった。
論文 参考訳(メタデータ) (2021-04-30T22:20:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。