論文の概要: Opal: An Operator Algebra View of RLHF
- arxiv url: http://arxiv.org/abs/2509.11298v1
- Date: Sun, 14 Sep 2025 14:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.020863
- Title: Opal: An Operator Algebra View of RLHF
- Title(参考訳): Opal: RLHFのオペレータ代数ビュー
- Authors: Madhava Gaikwad,
- Abstract要約: Opalは、人間からのフィードバックからの強化学習のオペレータビューである。
GKPOはRLHFメソッドの標準スキーマを提供する。
Pythonリファレンスライブラリは、標準ハッシュとDPOとRRHF用のアダプタを実装している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Opal, an operator view of reinforcement learning from human feedback (RLHF). Objectives are expressed as ladders of two primitives on a base utility: additive penalties and multiplicative pairwise weights. We describe a simple reduction law with if-and-only-if conditions: such ladders collapse to a normal form on pairwise margins when the reference is fixed, penalties are additive, and weights are independent of intermediate margins. When these assumptions do not hold (reference shift, non-additive gates, score-dependent weights), small examples demonstrate non-reducibility. Building on this view, we introduce GKPO (Generalized Kernel Preference Object), a canonical schema in which many RLHF methods can be represented and, when reducible, mapped back from. GKPO provides a standard JSON serialization, canonicalization and hashing rules, and explicit flags with finite witnesses when assumptions fail. We illustrate these ideas with GKPO examples for DPO, RRHF, and ORPO, along with cross-method conversions (where assumptions permit) and minimal stress tests (SHIFT/GATE/SCORE) that highlight non-reducibility. A lightweight Python reference library accompanies the schema, implementing canonical hashing and adapters for DPO and RRHF.
- Abstract(参考訳): 本稿では,人間からのフィードバック(RLHF)から強化学習を行うオパールについて述べる。
目的は、加法的なペナルティと乗法的な対の重みの2つのプリミティブのはしごとして表される。
我々は、if-and-only-if条件で単純な還元則を記述し、参照が固定されたときのペアのマージン上の通常の形式に崩壊し、ペナルティは加法的であり、重みは中間マージンとは独立である。
これらの仮定が成立しない場合(参照シフト、非加法ゲート、スコア依存重み付け)、小さな例は非可逆性を示す。
この観点からGKPO(Generalized Kernel Preference Object)を導入し、多くのRLHFメソッドを表現でき、再現可能であれば、そこからマッピングする。
GKPOは標準的なJSONシリアライゼーション、標準化とハッシュルール、仮定が失敗すると有限の証人による明示的なフラグを提供する。
我々はこれらのアイデアを、DPO、RRHF、ORPOのGKPOの例とともに説明し、非可読性を強調するクロスメタル変換(仮定が許容する)と最小応力試験(SHIFT/GATE/SCORE)で説明する。
軽量のPythonリファレンスライブラリがスキーマに付属し、標準ハッシュとDPOとRRHF用のアダプタを実装している。
関連論文リスト
- Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - REINFORCE++: An Efficient RLHF Algorithm with Robustness to Both Prompt and Reward Models [9.950083479263293]
REINFORCE++は、グローバルな優位性正規化を使用しながら、批判モデルを削除する新しいアプローチである。
プロンプトセットのトランケーションを必要とせずに、様々な報酬モデルに対して堅牢なパフォーマンスを示す。
RLHFとロングチェーン・オブ・ソートの両方において優れた一般化を実現する。
論文 参考訳(メタデータ) (2025-01-04T02:08:06Z) - UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function [14.7365465149829]
我々は、RLHF/PPO、DPO、KTOを統一するtextbfUNified textbfAlignment (UNA)を提案する。
この新たな報酬モデルと最適ポリシーのマッピングにより、UNAは1。
RLHF/PPOの性能は、RL微調整プロセスの単純化、安定化、高速化、メモリ負荷の低減を図りながら向上する。
論文 参考訳(メタデータ) (2024-08-27T18:04:07Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。