Fugu-MT 論文翻訳(概要): Rethinking Information Structures in RLHF: Reward Generalization from a Graph Theory Perspective

論文の概要: Rethinking Information Structures in RLHF: Reward Generalization from a Graph Theory Perspective

arxiv url: http://arxiv.org/abs/2402.10184v2
Date: Sat, 17 Feb 2024 03:26:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 00:28:40.613385
Title: Rethinking Information Structures in RLHF: Reward Generalization from a Graph Theory Perspective
Title（参考訳）: rlhfにおける情報構造再考:グラフ理論の観点からの報酬一般化
Authors: Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou, Han Yang, Josef Dai, Xuehai Pan, Yaodong Yang
Abstract要約: 目的の誤一般化の可能性を秘めているような,より広い用途の新たな分析手法を提案する。本分析から得られた知見は,従来のRLHF法に比べ,報奨モデルにおける木に基づく情報構造の優位性である。
参考スコア（独自算出の注目度）: 12.855406539819462
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There is a trilemma in reinforcement learning from human feedback (RLHF): the incompatibility between highly diverse contexts, low labeling cost, and reliable alignment performance. Here we aim to mitigate such incompatibility through the design of dataset information structures during reward modeling, and meanwhile propose new methods of analysis that have wider applications, including potentially shedding light on goal misgeneralization. Specifically, we first reexamine the RLHF process and propose a theoretical framework portraying it as an autoencoding process over text distributions. Our framework formalizes the RLHF objective of ensuring distributional consistency between human preference and large language model (LLM) behavior. Under this framework, we introduce a new method based on random graph theory, the induced Bayesian network (IBN). It models generalization in the semantic space and enables empirically grounded analysis of generalization error bounds, aiming to shed light on reward generalization in RLHF. An insight from our analysis is the superiority of the tree-based information structure in reward modeling, compared to chain-based baselines in conventional RLHF methods. We derive that in complex contexts with limited data, the tree-based reward model (RM) induces up to $\Theta(\log n/\log\log n)$ times less variance than chain-based RM where $n$ is the dataset size. As validation, we demonstrate that on three NLP tasks, the tree-based RM achieves 65% win rate on average against chain-based baselines.
Abstract（参考訳）: ヒューマンフィードバック(RLHF)からの強化学習には、高度に多様なコンテキスト、低ラベリングコスト、信頼性のあるアライメントパフォーマンスの不適合性がある。本稿では,報酬モデリングにおけるデータセット情報構造の設計を通じて,このような非互換性を軽減し,一方で,ゴールの非一般化に光を当てる可能性を含む,より広い応用性を持つ新たな分析手法を提案する。具体的には,まずrlhfプロセスを再検討し,テキスト分布上の自動エンコーディングプロセスとして表現する理論的枠組みを提案する。我々のフレームワークは、人間の好みと大規模言語モデル(LLM)の振る舞いの分布整合性を保証するというRLHFの目的を定式化する。本稿では,ランダムグラフ理論に基づく新しい手法,誘導ベイズネットワーク(IBN)を提案する。意味空間における一般化をモデル化し、一般化誤差境界の経験的基底解析を可能にし、rlhfの報酬汎化に光を当てる。本分析から得られた知見は,従来のRLHF法に比べ,報奨モデルにおける木に基づく情報構造の優位性である。制限されたデータを持つ複雑なコンテキストにおいて、ツリーベースの報酬モデル(rm)は最大で$\theta(\log n/\log\log n)がデータセットサイズであるチェーンベースのrmよりも最大で分散しない。検証の結果,3つのNLPタスクにおいて,木系RMはチェーン系ベースラインに対して平均65%の勝利率を達成した。

関連論文リスト

Sharpness-aware Federated Graph Learning [16.148982247077157]
大規模実世界のグラフデータにグラフニューラルネットワーク(GNN)を適用する上での障害のひとつは、集中的なトレーニングの課題である。フェデレーショングラフ学習(FGL)は、プライベートデータを共有せずに協調的なGNNモデルトレーニングを可能にすることで、この問題に対処する。
論文参考訳（メタデータ） (2025-12-18T06:57:13Z)
Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。 InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。 IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文参考訳（メタデータ） (2025-10-15T15:51:59Z)
Glocal Information Bottleneck for Time Series Imputation [70.41814118117311]
Time Series Imputationは、時間データの欠落した値を復元することを目的としている。既存のモデルは、通常、数値(ローカル情報)の回復に焦点をあてて、ポイントワイズ復元損失を最適化する。我々はGlocal Information Bottleneck(Glocal-IB)という新たなトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2025-10-06T15:24:44Z)
Alignment as Distribution Learning: Your Preference Model is Explicitly a Language Model [12.063078727764045]
人間のフィードバックからの強化学習によるアライメントは理論的正当性に欠け、決定論的解のインセンティブを与える。本稿では, 優先最大推定, 優先蒸留, 逆KL最小化の3つの基本学習目標を提案する。我々は、我々の分布学習フレームワーク、特に嗜好蒸留が、RLHFとDPOのパフォーマンスを一貫して上回るか、あるいは一致しているかを実証的に示す。
論文参考訳（メタデータ） (2025-06-02T10:36:31Z)
Generalization Capability for Imitation Learning [1.30536490219656]
模倣学習は、専門家によるデモンストレーションから学ぶことで、多芸なスキルを持つロボットを装備するという約束を果たす。しかしながら、有限データセットで訓練されたポリシーは、トレーニング分布を超えた一般化に苦慮することが多い。本稿では、情報理論とデータ分散特性の両方を基礎とした模倣学習の一般化能力に関する統一的な視点を示す。
論文参考訳（メタデータ） (2025-04-25T17:59:59Z)
M$^3$-Impute: Mask-guided Representation Learning for Missing Value Imputation [12.174699459648842]
M$3$-Imputeは、不足情報や新しいマスキング手法との相関性を明示的に活用することを目的としている。実験の結果,M$3$-Imputeは平均20点,第2bのMAEスコアが4点であった。
論文参考訳（メタデータ） (2024-10-11T13:25:32Z)
Can We Theoretically Quantify the Impacts of Local Updates on the Generalization Performance of Federated Learning? [50.03434441234569]
フェデレートラーニング(FL)は、直接データ共有を必要とせず、さまざまなサイトで機械学習モデルをトレーニングする効果により、大きな人気を集めている。局所的な更新を伴うFLは通信効率のよい分散学習フレームワークであることが様々なアルゴリズムによって示されているが、局所的な更新によるFLの一般化性能は比較的低い。
論文参考訳（メタデータ） (2024-09-05T19:00:18Z)
BECAUSE: Bilinear Causal Representation for Generalizable Offline Model-based Reinforcement Learning [39.090104460303415]
オフラインモデルベース強化学習(MBRL)は、事前コンパイルされたデータセットを使用してモデルとポリシーを学ぶことにより、データ効率を向上させる。本稿は、このミスマッチの主な原因を、オフラインデータに存在する根底にある共同設立者から特定する。両状態の因果表現をキャプチャするアルゴリズムである textbfBilintextbfEar textbfCAUSal rtextbfEpresentation (BECAUSE) を導入する。
論文参考訳（メタデータ） (2024-07-15T17:59:23Z)
Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文参考訳（メタデータ） (2024-06-11T17:01:41Z)
Graph Out-of-Distribution Generalization via Causal Intervention [69.70137479660113]
本稿では,ノードレベルの分散シフトの下で頑健なグラフニューラルネットワーク(GNN)をトレーニングするための,概念的に単純だが原則化されたアプローチを提案する。本手法は,環境推定器と熟練GNN予測器を協調する因果推論に基づく新たな学習目標を提案する。本モデルでは,様々な分散シフトによる一般化を効果的に向上し,グラフOOD一般化ベンチマーク上での最先端の精度を最大27.4%向上させることができる。
論文参考訳（メタデータ） (2024-02-18T07:49:22Z)
InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。 InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文参考訳（メタデータ） (2024-02-14T17:49:07Z)
Out of the Ordinary: Spectrally Adapting Regression for Covariate Shift [12.770658031721435]
本稿では,学習前のニューラル回帰モデルの最後の層の重みを適応させて,異なる分布から得られる入力データを改善する手法を提案する。本稿では,この軽量なスペクトル適応手法により,合成および実世界のデータセットの分布外性能が向上することを示す。
論文参考訳（メタデータ） (2023-12-29T04:15:58Z)
A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文参考訳（メタデータ） (2023-11-13T01:48:08Z)
Classification of Data Generated by Gaussian Mixture Models Using Deep ReLU Networks [28.437011792990347]
本稿では,ガウス混合ネットワーク下で発生した$math RMsのデータ二項分類について検討する。コンバージェンスレートが初めて$d2013xのニューラル解析レートを得る。結果は、実用的な分類問題におけるディープニューラルネットワークの理論的検証を提供する。
論文参考訳（メタデータ） (2023-08-15T20:40:42Z)
Topology-aware Robust Optimization for Out-of-distribution Generalization [18.436575017126323]
アウト・オブ・ディストリビューション(OOD)の一般化は難しい機械学習問題であるが、多くの高スループットアプリケーションで非常に望ましい。本稿では,分散トポロジを原理的最適化フレームワークにシームレスに統合するトポロジ対応ロバスト最適化(TRO)を提案する。提案手法の有効性を理論的に実証し, 分類, 回帰, セマンティックセグメンテーションを含む幅広いタスクにおいて, 芸術の状態を著しく上回っていることを示す。
論文参考訳（メタデータ） (2023-07-26T03:48:37Z)
Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文参考訳（メタデータ） (2023-05-11T22:50:41Z)
GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP, and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文参考訳（メタデータ） (2022-11-03T16:42:40Z)
Optimal Propagation for Graph Neural Networks [51.08426265813481]
最適グラフ構造を学習するための二段階最適化手法を提案する。また、時間的複雑さをさらに軽減するために、低ランク近似モデルについても検討する。
論文参考訳（メタデータ） (2022-05-06T03:37:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。