論文の概要: Rethinking Information Structures in RLHF: Reward Generalization from a
Graph Theory Perspective
- arxiv url: http://arxiv.org/abs/2402.10184v1
- Date: Thu, 15 Feb 2024 18:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 14:26:48.547442
- Title: Rethinking Information Structures in RLHF: Reward Generalization from a
Graph Theory Perspective
- Title(参考訳): rlhfにおける情報構造再考:グラフ理論の観点からの報酬一般化
- Authors: Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou,
Han Yang, Josef Dai, Xuehai Pan, Yaodong Yang
- Abstract要約: 本稿では,RLHFをテキスト分布上の自動符号化プロセスとして記述する理論的枠組みを提案する。
次に,報奨モデルにおける情報構造の性能への影響を系統的に検討する。
我々の分析における重要な洞察は、チェーンベースベースラインと比較して、報酬モデリングにおけるツリーベース情報構造の優位性である。
- 参考スコア(独自算出の注目度): 12.855406539819462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a trilemma in reinforcement learning from human feedback (RLHF): the
incompatibility between highly diverse contexts, low labeling cost, and
reliable alignment performance. Here we aim to mitigate such incompatibility
through the design of dataset information structures during reward modeling.
Specifically, we first reexamine the RLHF process and propose a theoretical
framework portraying it as an autoencoding process over text distributions. Our
framework formalizes the RLHF objective of ensuring distributional consistency
between human preference and large language model (LLM) behavior. Building on
this framework, we then systematically investigate the performance impact of
information structure in the reward modeling stage of RLHF. To further
understand reward generalization in the reward modeling stage, we introduce a
new method based on random graph theory that models generalization in the
semantic space. A key insight of our analysis is the superiority of the
tree-based information structure in reward modeling, compared to chain-based
baselines adopted by conventional RLHF methods. We derive that under highly
complex contexts with limited data, the tree-based reward model (RM) induces up
to $\Theta(\log n/\log\log n)$ times less variance than chain-based RM where
$n$ is the dataset size. To validate our theoretical contribution, we
demonstrate that on three different NLP tasks, the tree-based RM achieves 65%
win rate on average against chain-based baselines. Looking forward, we hope our
framework can serve as a step towards understanding goal misgeneralization.
- Abstract(参考訳): ヒューマンフィードバック(RLHF)からの強化学習には、高度に多様なコンテキスト、低ラベリングコスト、信頼性のあるアライメントパフォーマンスの不適合性がある。
本稿では,報酬モデリングにおけるデータセット情報構造の設計を通じて,このような非互換性を緩和することを目的とする。
具体的には,まずrlhfプロセスを再検討し,テキスト分布上の自動エンコーディングプロセスとして表現する理論的枠組みを提案する。
我々のフレームワークは、人間の好みと大規模言語モデル(LLM)の振る舞いの分布整合性を保証するというRLHFの目的を定式化する。
この枠組みに基づいて、RLHFの報酬モデリング段階における情報構造の性能への影響を体系的に検討する。
報酬モデリング段階における報酬一般化をさらに理解するために,意味空間の一般化をモデル化するランダムグラフ理論に基づく新しい手法を提案する。
本分析の重要な知見は,従来のrlhf法で採用されている連鎖型ベースラインと比較して,報酬モデリングにおける木型情報構造の優位性である。
限られたデータを持つ非常に複雑なコンテキスト下では、木ベースの報酬モデル(RM)は、$n$がデータセットサイズであるチェーンベースのRMよりも最大$\Theta(\log n/\log\log n)$の分散を誘導する。
理論的寄与を検証するため,木系RMは3つの異なるNLPタスクにおいて,チェーン系ベースラインに対して平均65%の勝利率を達成した。
今後は、私たちのフレームワークが、目標の誤一般化を理解するためのステップになることを期待します。
関連論文リスト
- Graph Out-of-Distribution Generalization via Causal Intervention [74.77883794668324]
本稿では,ノードレベルの分散シフトの下で頑健なグラフニューラルネットワーク(GNN)をトレーニングするための,概念的に単純だが原則化されたアプローチを提案する。
本手法は,環境推定器と熟練GNN予測器を協調する因果推論に基づく新たな学習目標を提案する。
本モデルでは,様々な分散シフトによる一般化を効果的に向上し,グラフOOD一般化ベンチマーク上での最先端の精度を最大27.4%向上させることができる。
論文 参考訳(メタデータ) (2024-02-18T07:49:22Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Exploring Optimal Substructure for Out-of-distribution Generalization
via Feature-targeted Model Pruning [23.938392334438582]
本研究では,不均一な部分構造を自動探索するために,SFPと呼ばれる新しいSpurious Feature-targeted Model Pruningフレームワークを提案する。
SFP は構造ベースおよび非構造 OOD 一般化 SOTA をそれぞれ4.72% と 23.35% に向上させることができる。
論文 参考訳(メタデータ) (2022-12-19T13:51:06Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z) - BScNets: Block Simplicial Complex Neural Networks [79.81654213581977]
グラフ学習における最新の方向性として、SNN(Simplicial Neural Network)が最近登場した。
リンク予測のためのBlock Simplicial Complex Neural Networks (BScNets) モデルを提案する。
BScNetsは、コストを抑えながら最先端のモデルよりも大きなマージンを保っている。
論文 参考訳(メタデータ) (2021-12-13T17:35:54Z) - Generalizing Graph Neural Networks on Out-Of-Distribution Graphs [51.33152272781324]
トレーニンググラフとテストグラフの分散シフトを考慮せずにグラフニューラルネットワーク(GNN)を提案する。
このような環境では、GNNは、たとえ素早い相関であるとしても、予測のためのトレーニングセットに存在する微妙な統計的相関を利用する傾向がある。
本稿では,スプリアス相関の影響を排除するため,StableGNNと呼ばれる一般的な因果表現フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-20T18:57:18Z) - The Eigenlearning Framework: A Conservation Law Perspective on Kernel
Regression and Wide Neural Networks [1.6519302768772166]
テストリスクとカーネルリッジ回帰の他の一般化指標について、簡単なクローズドフォーム推定を導出する。
関数の正規直交基底を学習するKRRの能力を制限するシャープな保存法則を同定する。
論文 参考訳(メタデータ) (2021-10-08T06:32:07Z) - Prequential MDL for Causal Structure Learning with Neural Networks [9.669269791955012]
ベイジアンネットワークの実用的スコアリング関数を導出するために,事前最小記述長の原理が利用できることを示す。
我々は、調整しなければならない事前やその他の正規化子を誘導するスパーシリティに頼ることなく、可塑性および擬似グラフ構造を得る。
本研究は, 適応速度から因果構造を推定する最近の研究と, 分布変化の源泉から観測結果が得られた場合の因果構造との関係について考察する。
論文 参考訳(メタデータ) (2021-07-02T22:35:21Z) - Explaining a Series of Models by Propagating Local Feature Attributions [9.66840768820136]
複数の機械学習モデルを含むパイプラインは、多くの領域でパフォーマンスが向上するが、理解が難しい。
Shapley値への接続に基づいて、モデルの複雑なパイプラインを通じてローカル機能属性を伝播させるフレームワークを紹介します。
本フレームワークにより,アルツハイマー病および乳癌の組織学的診断における遺伝子発現特徴群に基づく高次結論の導出が可能となった。
論文 参考訳(メタデータ) (2021-04-30T22:20:58Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z) - DessiLBI: Exploring Structural Sparsity of Deep Networks via
Differential Inclusion Paths [45.947140164621096]
逆スケール空間の差分包摂に基づく新しい手法を提案する。
DessiLBIが早期に「優勝チケット」を発表することを示す。
論文 参考訳(メタデータ) (2020-07-04T04:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。