論文の概要: Dissecting Human and LLM Preferences
- arxiv url: http://arxiv.org/abs/2402.11296v1
- Date: Sat, 17 Feb 2024 14:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:57:31.879377
- Title: Dissecting Human and LLM Preferences
- Title(参考訳): 人間とLLMを区別する
- Authors: Junlong Li, Fan Zhou, Shichao Sun, Yikai Zhang, Hai Zhao, Pengfei Liu
- Abstract要約: 人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
- 参考スコア(独自算出の注目度): 80.55271307662365
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As a relative quality comparison of model responses, human and Large Language
Model (LLM) preferences serve as common alignment goals in model fine-tuning
and criteria in evaluation. Yet, these preferences merely reflect broad
tendencies, resulting in less explainable and controllable models with
potential safety risks. In this work, we dissect the preferences of human and
32 different LLMs to understand their quantitative composition, using
annotations from real-world user-model conversations for a fine-grained,
scenario-wise analysis. We find that humans are less sensitive to errors, favor
responses that support their stances, and show clear dislike when models admit
their limits. On the contrary, advanced LLMs like GPT-4-Turbo emphasize
correctness, clarity, and harmlessness more. Additionally, LLMs of similar
sizes tend to exhibit similar preferences, regardless of their training
methods, and fine-tuning for alignment does not significantly alter the
preferences of pretrained-only LLMs. Finally, we show that preference-based
evaluation can be intentionally manipulated. In both training-free and
training-based settings, aligning a model with the preferences of judges boosts
scores, while injecting the least preferred properties lowers them. This
results in notable score shifts: up to 0.59 on MT-Bench (1-10 scale) and 31.94
on AlpacaEval 2.0 (0-100 scale), highlighting the significant impact of this
strategic adaptation. Interactive Demo:
https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization Dataset:
https://huggingface.co/datasets/GAIR/preference-dissection Code:
https://github.com/GAIR-NLP/Preference-Dissection
- Abstract(参考訳): モデル応答の相対的な品質比較として、人間と大規模言語モデル(LLM)の嗜好はモデル微調整における共通のアライメント目標と評価における基準となる。
しかし、これらの選好は単に広範な傾向を反映しているだけであり、潜在的な安全性リスクを伴う説明可能で制御可能なモデルが少なくなる。
本研究では,実世界のユーザモデル会話のアノテーションを用いて,人間と32種類のllmの好みを分析し,その量的構成を理解する。
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
一方、GPT-4-Turboのような高度なLCMは、より正確性、明確性、無害性を強調している。
さらに、同様のサイズのLLMは、トレーニング方法にかかわらず、同様の好みを示す傾向があり、アライメントのための微調整は、事前訓練済みのLLMの好みを著しく変えない。
最後に,嗜好に基づく評価を故意に操作できることを示す。
トレーニングフリーとトレーニングベースの両方の設定では、モデルを審査員の好みに合わせるとスコアが上がり、最小限のプロパティを注入するとスコアが低下する。
その結果、mt-bench (1-10スケール) が 0.59 まで、alpacaeval 2.0 (0-100スケール) が 31.94 まで上昇し、この戦略的適応の影響が顕著となった。
Interactive Demo: https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization Dataset: https://huggingface.co/datasets/GAIR/preference-Dissection Code: https://github.com/GAIR-NLP/Preference-Dissection
関連論文リスト
- Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - KTO: Model Alignment as Prospect Theoretic Optimization [72.3561669924904]
Kahneman & Tversky の $textitprospect theory$ は、人間が偏見はあるが明確に定義された方法でランダム変数を知覚することを示している。
人間のフィードバックとLLMを協調させる目的には,これらのバイアスが暗黙的に組み込まれていることを示す。
そこで本稿では,嗜好のログ類似度を最大化する代わりに,世代別利用率を直接最大化するHALOを提案する。
論文 参考訳(メタデータ) (2024-02-02T10:53:36Z) - On Diversified Preferences of Large Language Model Alignment [39.217429347482145]
本研究では,多彩な嗜好が報酬モデルに及ぼす影響について検討する。
その結果,様々な選好データが報酬モデルのキャリブレーション性能に悪影響を及ぼすことがわかった。
本稿では,RMの校正性能を高めるための多目的リワード学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - Axiomatic Preference Modeling for Longform Question Answering [15.675861802061078]
そこで我々は,人間の嗜好を維持するために,多種多様な嗜好信号を生成するための公理的枠組みを開発した。
我々はこれらの公理的信号を用いて、長大な質問に対する回答を評価するためのモデルを訓練する。
提案手法は,GPT-4よりも高い頻度で,ゴールドアノテートされた選好ラベルに適合する約220万のパラメータを持つ選好モデルである。
論文 参考訳(メタデータ) (2023-12-02T23:11:41Z) - Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - Compositional preference models for aligning LMs [11.458448099144762]
構成的選好モデル(CPM)は、一つのグローバルな選好評価をいくつかの解釈可能な特徴に分解するフレームワークである。
CPMは、選好データのどの特性を使って選好モデルを訓練するかを制御し、人間の選好判断を過小評価していると考えられる特徴に基づいて構築することができる。
論文 参考訳(メタデータ) (2023-10-17T01:31:59Z) - Parameter-Efficient Tuning Helps Language Model Alignment [57.27390187540737]
これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。
コントロール可能な生成は、データフォーマットに関して、より柔軟性を提供します。
パラメータ効率調整(MEET)を併用したアライメントMEntでは,制御トークンの品質が向上する。
論文 参考訳(メタデータ) (2023-10-01T23:27:14Z) - RAIN: Your Language Models Can Align Themselves without Finetuning [25.703729145091483]
大型言語モデル(LLM)は人間の好みと矛盾することが多い。
本研究では,不整合 LLM が自己ブーイングによって直接人間の嗜好に整合した応答を生成可能であることを示す。
本稿では,自己回帰推論(Rewindable Auto-Regressive Inference)という新しい推論手法を導入する。
論文 参考訳(メタデータ) (2023-09-13T17:59:09Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。