Fugu-MT 論文翻訳(概要): Axiomatic Preference Modeling for Longform Question Answering

論文の概要: Axiomatic Preference Modeling for Longform Question Answering

arxiv url: http://arxiv.org/abs/2312.02206v1
Date: Sat, 2 Dec 2023 23:11:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 18:22:22.663678
Title: Axiomatic Preference Modeling for Longform Question Answering
Title（参考訳）: 長文質問応答に対する公理的選好モデル
Authors: Corby Rosset, Guoqing Zheng, Victor Dibia, Ahmed Awadallah, Paul Bennett
Abstract要約: そこで我々は,人間の嗜好を維持するために,多種多様な嗜好信号を生成するための公理的枠組みを開発した。我々はこれらの公理的信号を用いて、長大な質問に対する回答を評価するためのモデルを訓練する。提案手法は,GPT-4よりも高い頻度で,ゴールドアノテートされた選好ラベルに適合する約220万のパラメータを持つ選好モデルである。
参考スコア（独自算出の注目度）: 15.675861802061078
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The remarkable abilities of large language models (LLMs) like GPT-4 partially stem from post-training processes like Reinforcement Learning from Human Feedback (RLHF) involving human preferences encoded in a reward model. However, these reward models (RMs) often lack direct knowledge of why, or under what principles, the preferences annotations were made. In this study, we identify principles that guide RMs to better align with human preferences, and then develop an axiomatic framework to generate a rich variety of preference signals to uphold them. We use these axiomatic signals to train a model for scoring answers to longform questions. Our approach yields a Preference Model with only about 220M parameters that agrees with gold human-annotated preference labels more often than GPT-4. The contributions of this work include: training a standalone preference model that can score human- and LLM-generated answers on the same scale; developing an axiomatic framework for generating training data pairs tailored to certain principles; and showing that a small amount of axiomatic signals can help small models outperform GPT-4 in preference scoring. We release our model on huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model
Abstract（参考訳）: GPT-4のような大きな言語モデル(LLM)の顕著な能力は、報酬モデルに符号化された人間の嗜好を含む強化学習(RLHF)のようなポストトレーニングプロセスに由来する。しかし、これらの報酬モデル(rms)は、しばしば、なぜ、どんな原則の下で、優先アノテーションが作られたのか、直接の知識を欠いている。本研究では,人間の嗜好に合致するようにrmsを指導する原則を特定し,それを維持するために多様な選好信号を生成するための公理的枠組みを開発する。我々はこれらの公理信号を用いて、長大な質問に対する回答を評価するためのモデルを訓練する。提案手法は,gpt-4よりもゴールド・ヒューマン・アノテート・プレファレンスラベルに合致するパラメータが約220mの選好モデルを生成する。この研究の貢献は、人間とLLMが生成する回答を同じスケールで評価できるスタンドアロンの選好モデルをトレーニングすること、特定の原則に合わせたトレーニングデータペアを生成するための公理的フレームワークを開発すること、少数の公理的信号が小さなモデルにおいて、選好スコアにおいてGPT-4より優れていることを示すことである。 huggingfaceのモデルは、https://huggingface.co/corbyrosset/axiomatic_preference_modelです。

関連論文リスト

Listener-Rewarded Thinking in VLMs for Image Preferences [38.07052490646366]
視覚報酬モデルをトレーニングするためのリスナー強化GRPOフレームワークを提案する。我々のリスナー型報酬方式は,ImageRewardベンチマークにおいて最も精度が高い。これらの結果から、聞き手による報酬は、視覚言語モデルと微妙な人間の嗜好を整合させる、スケーラブルでデータ効率のよい経路を提供することが示された。
論文参考訳（メタデータ） (2025-06-28T09:53:17Z)
Capturing Individual Human Preferences with Reward Features [47.43999785878563]
個人の好みを一般報酬特徴の線形結合として捉えることができることを示す。このような特徴を学習し、その後、報酬モデルを特定の個人に迅速に適応させる方法を示します。提案するアーキテクチャを非適応型報酬モデルと適応型報酬モデルと比較し,大規模言語モデルを用いた実験を行った。
論文参考訳（メタデータ） (2025-03-21T17:39:33Z)
General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文参考訳（メタデータ） (2024-10-03T04:22:55Z)
Aligning Language Models Using Follow-up Likelihood as Reward Signal [40.388526412214276]
そこで本稿では,好ましくない応答を区別するための報奨として,フォローアップ発話の可能性を提案する。提案した報奨機構であるFollow-up Likelihood as Reward (FLR) は,大規模人やGPT-4アノテートデータに基づいてトレーニングされた強力な報奨モデルの性能と一致する。
論文参考訳（メタデータ） (2024-09-20T23:47:25Z)
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging [65.41765072566287]
textbfDomain knowledtextbfge merged textbfReward textbfModel(DogeRM)を提案する。
論文参考訳（メタデータ） (2024-07-01T17:01:54Z)
Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文参考訳（メタデータ） (2024-06-18T17:58:28Z)
Multi-objective Reinforcement learning from AI Feedback [0.0]
本稿では、AIフィードバック(RLAIF)からの強化学習を用いて訓練された言語モデルのアライメントと性能を改善するための新しいアプローチを提案する。すべての人間の嗜好を表現するために、単一の嗜好モデルを訓練する標準的なアプローチとは対照的に、MORLAIFは、このタスクを毒性、事実性、梅毒といったより単純な原則に分解する。我々の実験は、MORLAIFが標準のRLAIFベースラインより優れており、MORLAIFはより小さな言語モデルを用いて、より大きな言語モデルを調整するために使用できることを示している。
論文参考訳（メタデータ） (2024-06-11T14:24:00Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。 GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。嗜好に基づく評価は意図的に操作可能であることを示す。
論文参考訳（メタデータ） (2024-02-17T14:34:31Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
RRHF: Rank Responses to Align Language Models with Human Feedback without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文参考訳（メタデータ） (2023-04-11T15:53:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。