Fugu-MT 論文翻訳(概要): Rethinking Information Structures in RLHF: Reward Generalization from a Graph Theory Perspective

論文の概要: Rethinking Information Structures in RLHF: Reward Generalization from a Graph Theory Perspective

arxiv url: http://arxiv.org/abs/2402.10184v4
Date: Mon, 8 Apr 2024 07:50:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 01:06:46.019776
Title: Rethinking Information Structures in RLHF: Reward Generalization from a Graph Theory Perspective
Title（参考訳）: RLHFにおける情報構造の再考:グラフ理論の観点からの逆一般化
Authors: Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou, Yang Han, Josef Dai, Xuehai Pan, Yaodong Yang,
Abstract要約: 本稿では,大言語モデル(LLMs)上で検証された予測を生成することができる報奨一般化の第一理論を紹介する。木構造的嗜好データセットに基づいてトレーニングされた木構造報酬モデル(RM)は,$Theta(log n/loglog n)$がベースラインよりも分散度が低く,$n$がデータセットサイズであることを示す。データセット情報構造の設計により、他の変更を必要とせずにアライメント性能を無償で取得できることが示されている。
参考スコア（独自算出の注目度）: 11.860984070348348
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There is a trilemma in reinforcement learning from human feedback (RLHF): the incompatibility between highly diverse contexts, low labeling cost, and reliable alignment performance. We mitigate such incompatibility through the design of dataset information structures during reward modeling, and introduce the Induced Bayesian Network (IBN), the first theory of reward generalization capable of generating substantial verified predictions on large language models (LLMs). Specifically, we first reexamine the RLHF process and propose a theoretical framework portraying it as an autoencoding process over text distributions. Our framework formalizes the RLHF objective of ensuring distributional consistency between human preference and LLM behavior. Then, based on this framework, we introduce the IBN to analyze generalization in the reward modeling stage of RLHF. Drawing from random graph theory and causal analysis, it enables empirically grounded derivation of generalization error bounds, a key improvement over classical theories of generalization. Finally, an insight from our analysis is the superiority of the tree-based information structure in reward modeling, compared to chain-based baselines in conventional RLHF methods. With IBN, we derive that in complex contexts with limited data, the tree-based reward model (RM), trained on a tree-structured preference dataset, induces up to $\Theta(\log n/\log\log n)$ times less variance than the baseline, where $n$ is the dataset size. As validation, we demonstrate that on three NLP tasks, the tree-based RM achieves 65% win rate on average against chain-based baselines. It shows that alignment performance can be gained for free via the design of dataset information structure, without the need for any other changes.
Abstract（参考訳）: ヒューマンフィードバック(RLHF)からの強化学習には、高度に多様なコンテキスト、低ラベリングコスト、信頼性のあるアライメントパフォーマンスの不適合性がある。報奨モデルにおけるデータセット情報構造の設計を通じて、このような不整合性を緩和し、大きな言語モデル(LLM)上で有効な予測を生成できる報奨一般化の第一理論である誘導ベイズネットワーク(IBN)を導入する。具体的には、まずRLHFプロセスを再検討し、テキスト分布上の自動符号化プロセスとして表現する理論的枠組みを提案する。我々のフレームワークは、人間の嗜好とLLM行動の分布整合性を確保するというRLHFの目的を定式化する。そして、この枠組みに基づいて、RLHFの報酬モデリング段階における一般化を解析するためにISNを導入する。ランダムグラフ理論と因果解析から引き出されたこの理論は、古典的な一般化理論よりも重要な改良である一般化誤差境界の実験的に基礎付けられた導出を可能にする。最後に,本分析から得られた知見は,従来のRLHF法と比較して,報奨モデルにおける木に基づく情報構造の優位性である。 IBNでは、木構造的嗜好データセットに基づいてトレーニングされた木に基づく報酬モデル(RM)が、ベースラインよりも分散度が低い$\Theta(\log n/\log\log n)$を誘導し、データセットサイズが$n$となる。検証の結果,3つのNLPタスクにおいて,木系RMはチェーン系ベースラインに対して平均65%の勝利率を達成した。データセット情報構造の設計により、他の変更を必要とせずにアライメント性能を無償で取得できることが示されている。

関連論文リスト

Alignment as Distribution Learning: Your Preference Model is Explicitly a Language Model [12.063078727764045]
人間のフィードバックからの強化学習によるアライメントは理論的正当性に欠け、決定論的解のインセンティブを与える。本稿では, 優先最大推定, 優先蒸留, 逆KL最小化の3つの基本学習目標を提案する。我々は、我々の分布学習フレームワーク、特に嗜好蒸留が、RLHFとDPOのパフォーマンスを一貫して上回るか、あるいは一致しているかを実証的に示す。
論文参考訳（メタデータ） (2025-06-02T10:36:31Z)
Generalization Capability for Imitation Learning [1.30536490219656]
模倣学習は、専門家によるデモンストレーションから学ぶことで、多芸なスキルを持つロボットを装備するという約束を果たす。しかしながら、有限データセットで訓練されたポリシーは、トレーニング分布を超えた一般化に苦慮することが多い。本稿では、情報理論とデータ分散特性の両方を基礎とした模倣学習の一般化能力に関する統一的な視点を示す。
論文参考訳（メタデータ） (2025-04-25T17:59:59Z)
M$^3$-Impute: Mask-guided Representation Learning for Missing Value Imputation [12.174699459648842]
M$3$-Imputeは、不足情報や新しいマスキング手法との相関性を明示的に活用することを目的としている。実験の結果,M$3$-Imputeは平均20点,第2bのMAEスコアが4点であった。
論文参考訳（メタデータ） (2024-10-11T13:25:32Z)
Can We Theoretically Quantify the Impacts of Local Updates on the Generalization Performance of Federated Learning? [50.03434441234569]
フェデレートラーニング(FL)は、直接データ共有を必要とせず、さまざまなサイトで機械学習モデルをトレーニングする効果により、大きな人気を集めている。局所的な更新を伴うFLは通信効率のよい分散学習フレームワークであることが様々なアルゴリズムによって示されているが、局所的な更新によるFLの一般化性能は比較的低い。
論文参考訳（メタデータ） (2024-09-05T19:00:18Z)
BECAUSE: Bilinear Causal Representation for Generalizable Offline Model-based Reinforcement Learning [39.090104460303415]
オフラインモデルベース強化学習(MBRL)は、事前コンパイルされたデータセットを使用してモデルとポリシーを学ぶことにより、データ効率を向上させる。本稿は、このミスマッチの主な原因を、オフラインデータに存在する根底にある共同設立者から特定する。両状態の因果表現をキャプチャするアルゴリズムである textbfBilintextbfEar textbfCAUSal rtextbfEpresentation (BECAUSE) を導入する。
論文参考訳（メタデータ） (2024-07-15T17:59:23Z)
Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文参考訳（メタデータ） (2024-06-11T17:01:41Z)
Graph Out-of-Distribution Generalization via Causal Intervention [69.70137479660113]
本稿では,ノードレベルの分散シフトの下で頑健なグラフニューラルネットワーク(GNN)をトレーニングするための,概念的に単純だが原則化されたアプローチを提案する。本手法は,環境推定器と熟練GNN予測器を協調する因果推論に基づく新たな学習目標を提案する。本モデルでは,様々な分散シフトによる一般化を効果的に向上し,グラフOOD一般化ベンチマーク上での最先端の精度を最大27.4%向上させることができる。
論文参考訳（メタデータ） (2024-02-18T07:49:22Z)
InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。 InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文参考訳（メタデータ） (2024-02-14T17:49:07Z)
Out of the Ordinary: Spectrally Adapting Regression for Covariate Shift [12.770658031721435]
本稿では,学習前のニューラル回帰モデルの最後の層の重みを適応させて,異なる分布から得られる入力データを改善する手法を提案する。本稿では,この軽量なスペクトル適応手法により,合成および実世界のデータセットの分布外性能が向上することを示す。
論文参考訳（メタデータ） (2023-12-29T04:15:58Z)
A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文参考訳（メタデータ） (2023-11-13T01:48:08Z)
Classification of Data Generated by Gaussian Mixture Models Using Deep ReLU Networks [28.437011792990347]
本稿では,ガウス混合ネットワーク下で発生した$math RMsのデータ二項分類について検討する。コンバージェンスレートが初めて$d2013xのニューラル解析レートを得る。結果は、実用的な分類問題におけるディープニューラルネットワークの理論的検証を提供する。
論文参考訳（メタデータ） (2023-08-15T20:40:42Z)
Topology-aware Robust Optimization for Out-of-distribution Generalization [18.436575017126323]
アウト・オブ・ディストリビューション(OOD)の一般化は難しい機械学習問題であるが、多くの高スループットアプリケーションで非常に望ましい。本稿では,分散トポロジを原理的最適化フレームワークにシームレスに統合するトポロジ対応ロバスト最適化(TRO)を提案する。提案手法の有効性を理論的に実証し, 分類, 回帰, セマンティックセグメンテーションを含む幅広いタスクにおいて, 芸術の状態を著しく上回っていることを示す。
論文参考訳（メタデータ） (2023-07-26T03:48:37Z)
Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文参考訳（メタデータ） (2023-05-11T22:50:41Z)
GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP, and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文参考訳（メタデータ） (2022-11-03T16:42:40Z)
Optimal Propagation for Graph Neural Networks [51.08426265813481]
最適グラフ構造を学習するための二段階最適化手法を提案する。また、時間的複雑さをさらに軽減するために、低ランク近似モデルについても検討する。
論文参考訳（メタデータ） (2022-05-06T03:37:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。