論文の概要: Reducing the Probability of Undesirable Outputs in Language Models Using Probabilistic Inference
- arxiv url: http://arxiv.org/abs/2510.21184v1
- Date: Fri, 24 Oct 2025 06:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 15:45:42.326554
- Title: Reducing the Probability of Undesirable Outputs in Language Models Using Probabilistic Inference
- Title(参考訳): 確率的推論を用いた言語モデルにおける望ましくない出力の確率の低減
- Authors: Stephen Zhao, Aidan Li, Rob Brekelmans, Roger Grosse,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、言語モデルと人間の嗜好を整合させる主要な手法となっている。
新たなトレーニング手法であるRePULSeを導入する。
我々は、RePULSeが、望ましくない出力の確率よりも、期待される報酬のトレードオフをより良く生み出すことを示す実験を行う。
- 参考スコア(独自算出の注目度): 5.703849059798583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has become a predominant technique to align language models (LMs) with human preferences or promote outputs which are deemed to be desirable by a given reward function. Standard RL approaches optimize average reward, while methods explicitly focused on reducing the probability of undesired outputs typically come at a cost to average-case performance. To improve this tradeoff, we introduce RePULSe, a new training method that augments the standard RL loss with an additional loss that uses learned proposals to guide sampling low-reward outputs, and then reduces those outputs' probability. We run experiments demonstrating that RePULSe produces a better tradeoff of expected reward versus the probability of undesired outputs and is more adversarially robust, compared to standard RL alignment approaches and alternatives.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、言語モデル(LM)を人間の好みと整合させたり、与えられた報酬関数によって望ましいと考えられるアウトプットを促進したりする主要な手法となっている。
標準RLアプローチは平均報酬を最適化する一方、望ましくない出力の確率を明示的に削減する手法は平均ケースのパフォーマンスにコストがかかる。
このトレードオフを改善するために、RePULSeは、学習された提案を用いて低逆出力のサンプリングを誘導し、それらの出力の確率を減少させる、標準的なRL損失を増大させる新しいトレーニング手法である。
従来のRLアライメント手法や代替手法と比較して,RePULSeが望ましくない出力の確率よりも高いトレードオフを生み出すことを示す実験を行った。
関連論文リスト
- Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [51.74394601039711]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Offline Reinforcement Learning via Inverse Optimization [2.8037951156321372]
連続状態と行動空間のための新しいオフライン強化学習(ORL)アルゴリズムを提案する。
ORL問題でよく見られる分布変化を緩和するために、我々は頑健で非因果予測制御の専門家を用いる。
既存の文献と異なり、当社の堅牢なMPC専門家は、正確かつトラクタブルな凸修正を楽しみます。
論文 参考訳(メタデータ) (2025-02-27T12:11:44Z) - Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs [25.011675414622392]
本研究では,分配シフトに対する報酬モデルの一般化能力を高める新しい手法を提案する。
我々は、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成機能を維持するために、テキスト生成損失のスイートを組み込む。
実験結果から,導入した正規化手法が学習報酬モデルの精度を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-06-14T17:49:59Z) - On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [39.29350451006295]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。
我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。
実験では、標準的なRLHFと比較して、特定の測定基準によって測定されるように、人間の嗜好に沿った29%から41%の改善が示されている。
論文 参考訳(メタデータ) (2024-05-26T07:00:05Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。