Fugu-MT 論文翻訳(概要): Transforming and Combining Rewards for Aligning Large Language Models

論文の概要: Transforming and Combining Rewards for Aligning Large Language Models

arxiv url: http://arxiv.org/abs/2402.00742v1
Date: Thu, 1 Feb 2024 16:39:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 14:39:44.327241
Title: Transforming and Combining Rewards for Aligning Large Language Models
Title（参考訳）: 大規模言語モデル協調のための報酬の変換と組み合わせ
Authors: Zihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour, Sanmi Koyejo, Victor Veitch
Abstract要約: 言語モデルを人間の好みに合わせるための一般的なアプローチは、まず好みデータから報酬モデルを学ぶことである。このアプローチで生じる2つの密接に関連する問題について検討する。ブラッドリー・テリー選好モデルから得られた報酬に対する変換の自然な選択を同定する。
参考スコア（独自算出の注目度）: 72.92877695045412
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A common approach for aligning language models to human preferences is to first learn a reward model from preference data, and then use this reward model to update the language model. We study two closely related problems that arise in this approach. First, any monotone transformation of the reward model preserves preference ranking; is there a choice that is ``better'' than others? Second, we often wish to align language models to multiple properties: how should we combine multiple reward models? Using a probabilistic interpretation of the alignment procedure, we identify a natural choice for transformation for (the common case of) rewards learned from Bradley-Terry preference models. This derived transformation has two important properties. First, it emphasizes improving poorly-performing outputs, rather than outputs that already score well. This mitigates both underfitting (where some prompts are not improved) and reward hacking (where the model learns to exploit misspecification of the reward model). Second, it enables principled aggregation of rewards by linking summation to logical conjunction: the sum of transformed rewards corresponds to the probability that the output is ``good'' in all measured properties, in a sense we make precise. Experiments aligning language models to be both helpful and harmless using RLHF show substantial improvements over the baseline (non-transformed) approach.
Abstract（参考訳）: 言語モデルを人間の好みに合わせるための一般的なアプローチは、まず好みデータから報酬モデルを学び、次にこの報酬モデルを使って言語モデルを更新する。このアプローチで生じる2つの密接に関連する問題について検討する。まず、報酬モデルの任意の単調変換は選好ランキングを保持します。第二に、私たちはしばしば言語モデルを複数のプロパティに合わせることを望んでいます。アライメント手順の確率論的解釈を用いて、Bradley-Terry選好モデルから得られた(一般的な場合)報酬に対する変換の自然な選択を同定する。この変換は2つの重要な性質を持つ。第一に、すでに成績の良いアウトプットではなく、パフォーマンスの悪いアウトプットを改善することを強調している。これにより、不適合(いくつかのプロンプトが改善されない)と報酬ハッキング(モデルが報酬モデルの誤特定を悪用することを学ぶ)の両方が軽減される。第二に、和を論理接続にリンクすることで、報酬の原理的な集約を可能にし、変換された報酬の和は、すべての測定された性質において出力が「良い」である確率に対応する。 RLHFを用いた言語モデルのアライメント実験は、ベースライン(非変換)アプローチよりも大幅に改善されている。

関連論文リスト

Sentence-level Reward Model can Generalize Better for Aligning LLM from Human Preference [27.205035058481553]
我々は各文にスコアを割り当て、中間粒度の報酬モデルを導入することを提案する。すべての文のスコアを応答レベルスコアに集約する新しい注意機構が導入された。提案手法はRewardBench上で応答レベル報酬モデルを2.7%向上させる。
論文参考訳（メタデータ） (2025-03-01T14:11:04Z)
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-02-14T18:59:51Z)
Model Stealing for Any Low-Rank Language Model [25.16701867917684]
我々は、単純で数学的に計算可能な設定を研究することによって、言語モデルを盗むという理論的理解を構築する。我々の主な成果は、低ランク分布を学習するための条件付きクエリモデルにおける効率的なアルゴリズムである。これは、少なくとも理論的には、推論時に機械学習モデルがより複雑な問題を解くことができるという興味深い例である。
論文参考訳（メタデータ） (2024-11-12T04:25:31Z)
Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives [14.401557416713315]
報奨モデルにおけるBradley-Terryモデル(BT)モデルの使用の基礎を再考する。我々は,下流最適化の観点から,BTモデルが必須選択ではないことを論じる。既成のバイナリ分類器と互換性のある,単純で簡単な上行法を提案する。
論文参考訳（メタデータ） (2024-11-07T18:57:03Z)
A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文参考訳（メタデータ） (2024-06-14T17:38:21Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文参考訳（メタデータ） (2022-05-26T21:11:51Z)
A Sparsity-promoting Dictionary Model for Variational Autoencoders [16.61511959679188]
深層生成モデルにおける潜伏空間の構造化は、より表現力のあるモデルと解釈可能な表現を得るために重要である。本稿では,空間の空間構造をスパーシティ・プロモーティング・辞書・モデルを用いて簡易かつ効果的に構築する手法を提案する。
論文参考訳（メタデータ） (2022-03-29T17:13:11Z)
AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。 3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文参考訳（メタデータ） (2020-01-15T18:32:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。