論文の概要: Rethinking Information Structures in RLHF: Reward Generalization from a
Graph Theory Perspective
- arxiv url: http://arxiv.org/abs/2402.10184v2
- Date: Sat, 17 Feb 2024 03:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 00:28:40.613385
- Title: Rethinking Information Structures in RLHF: Reward Generalization from a
Graph Theory Perspective
- Title(参考訳): rlhfにおける情報構造再考:グラフ理論の観点からの報酬一般化
- Authors: Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou,
Han Yang, Josef Dai, Xuehai Pan, Yaodong Yang
- Abstract要約: 目的の誤一般化の可能性を秘めているような,より広い用途の新たな分析手法を提案する。
本分析から得られた知見は,従来のRLHF法に比べ,報奨モデルにおける木に基づく情報構造の優位性である。
- 参考スコア(独自算出の注目度): 12.855406539819462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a trilemma in reinforcement learning from human feedback (RLHF): the
incompatibility between highly diverse contexts, low labeling cost, and
reliable alignment performance. Here we aim to mitigate such incompatibility
through the design of dataset information structures during reward modeling,
and meanwhile propose new methods of analysis that have wider applications,
including potentially shedding light on goal misgeneralization. Specifically,
we first reexamine the RLHF process and propose a theoretical framework
portraying it as an autoencoding process over text distributions. Our framework
formalizes the RLHF objective of ensuring distributional consistency between
human preference and large language model (LLM) behavior. Under this framework,
we introduce a new method based on random graph theory, the induced Bayesian
network (IBN). It models generalization in the semantic space and enables
empirically grounded analysis of generalization error bounds, aiming to shed
light on reward generalization in RLHF. An insight from our analysis is the
superiority of the tree-based information structure in reward modeling,
compared to chain-based baselines in conventional RLHF methods. We derive that
in complex contexts with limited data, the tree-based reward model (RM) induces
up to $\Theta(\log n/\log\log n)$ times less variance than chain-based RM where
$n$ is the dataset size. As validation, we demonstrate that on three NLP tasks,
the tree-based RM achieves 65% win rate on average against chain-based
baselines.
- Abstract(参考訳): ヒューマンフィードバック(RLHF)からの強化学習には、高度に多様なコンテキスト、低ラベリングコスト、信頼性のあるアライメントパフォーマンスの不適合性がある。
本稿では,報酬モデリングにおけるデータセット情報構造の設計を通じて,このような非互換性を軽減し,一方で,ゴールの非一般化に光を当てる可能性を含む,より広い応用性を持つ新たな分析手法を提案する。
具体的には,まずrlhfプロセスを再検討し,テキスト分布上の自動エンコーディングプロセスとして表現する理論的枠組みを提案する。
我々のフレームワークは、人間の好みと大規模言語モデル(LLM)の振る舞いの分布整合性を保証するというRLHFの目的を定式化する。
本稿では,ランダムグラフ理論に基づく新しい手法,誘導ベイズネットワーク(IBN)を提案する。
意味空間における一般化をモデル化し、一般化誤差境界の経験的基底解析を可能にし、rlhfの報酬汎化に光を当てる。
本分析から得られた知見は,従来のRLHF法に比べ,報奨モデルにおける木に基づく情報構造の優位性である。
制限されたデータを持つ複雑なコンテキストにおいて、ツリーベースの報酬モデル(rm)は最大で$\theta(\log n/\log\log n)がデータセットサイズであるチェーンベースのrmよりも最大で分散しない。
検証の結果,3つのNLPタスクにおいて,木系RMはチェーン系ベースラインに対して平均65%の勝利率を達成した。
関連論文リスト
- Graph Out-of-Distribution Generalization via Causal Intervention [74.77883794668324]
本稿では,ノードレベルの分散シフトの下で頑健なグラフニューラルネットワーク(GNN)をトレーニングするための,概念的に単純だが原則化されたアプローチを提案する。
本手法は,環境推定器と熟練GNN予測器を協調する因果推論に基づく新たな学習目標を提案する。
本モデルでは,様々な分散シフトによる一般化を効果的に向上し,グラフOOD一般化ベンチマーク上での最先端の精度を最大27.4%向上させることができる。
論文 参考訳(メタデータ) (2024-02-18T07:49:22Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Exploring Optimal Substructure for Out-of-distribution Generalization
via Feature-targeted Model Pruning [23.938392334438582]
本研究では,不均一な部分構造を自動探索するために,SFPと呼ばれる新しいSpurious Feature-targeted Model Pruningフレームワークを提案する。
SFP は構造ベースおよび非構造 OOD 一般化 SOTA をそれぞれ4.72% と 23.35% に向上させることができる。
論文 参考訳(メタデータ) (2022-12-19T13:51:06Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z) - BScNets: Block Simplicial Complex Neural Networks [79.81654213581977]
グラフ学習における最新の方向性として、SNN(Simplicial Neural Network)が最近登場した。
リンク予測のためのBlock Simplicial Complex Neural Networks (BScNets) モデルを提案する。
BScNetsは、コストを抑えながら最先端のモデルよりも大きなマージンを保っている。
論文 参考訳(メタデータ) (2021-12-13T17:35:54Z) - Generalizing Graph Neural Networks on Out-Of-Distribution Graphs [51.33152272781324]
トレーニンググラフとテストグラフの分散シフトを考慮せずにグラフニューラルネットワーク(GNN)を提案する。
このような環境では、GNNは、たとえ素早い相関であるとしても、予測のためのトレーニングセットに存在する微妙な統計的相関を利用する傾向がある。
本稿では,スプリアス相関の影響を排除するため,StableGNNと呼ばれる一般的な因果表現フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-20T18:57:18Z) - The Eigenlearning Framework: A Conservation Law Perspective on Kernel
Regression and Wide Neural Networks [1.6519302768772166]
テストリスクとカーネルリッジ回帰の他の一般化指標について、簡単なクローズドフォーム推定を導出する。
関数の正規直交基底を学習するKRRの能力を制限するシャープな保存法則を同定する。
論文 参考訳(メタデータ) (2021-10-08T06:32:07Z) - Prequential MDL for Causal Structure Learning with Neural Networks [9.669269791955012]
ベイジアンネットワークの実用的スコアリング関数を導出するために,事前最小記述長の原理が利用できることを示す。
我々は、調整しなければならない事前やその他の正規化子を誘導するスパーシリティに頼ることなく、可塑性および擬似グラフ構造を得る。
本研究は, 適応速度から因果構造を推定する最近の研究と, 分布変化の源泉から観測結果が得られた場合の因果構造との関係について考察する。
論文 参考訳(メタデータ) (2021-07-02T22:35:21Z) - Explaining a Series of Models by Propagating Local Feature Attributions [9.66840768820136]
複数の機械学習モデルを含むパイプラインは、多くの領域でパフォーマンスが向上するが、理解が難しい。
Shapley値への接続に基づいて、モデルの複雑なパイプラインを通じてローカル機能属性を伝播させるフレームワークを紹介します。
本フレームワークにより,アルツハイマー病および乳癌の組織学的診断における遺伝子発現特徴群に基づく高次結論の導出が可能となった。
論文 参考訳(メタデータ) (2021-04-30T22:20:58Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z) - DessiLBI: Exploring Structural Sparsity of Deep Networks via
Differential Inclusion Paths [45.947140164621096]
逆スケール空間の差分包摂に基づく新しい手法を提案する。
DessiLBIが早期に「優勝チケット」を発表することを示す。
論文 参考訳(メタデータ) (2020-07-04T04:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。