Fugu-MT 論文翻訳(概要): On Diversified Preferences of Large Language Model Alignment

論文の概要: On Diversified Preferences of Large Language Model Alignment

arxiv url: http://arxiv.org/abs/2312.07401v2
Date: Mon, 25 Dec 2023 16:26:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 21:12:44.782986
Title: On Diversified Preferences of Large Language Model Alignment
Title（参考訳）: 大規模言語モデルアライメントの多様な選好について
Authors: Dun Zeng, Yong Dai, Pengyu Cheng, Tianhao Hu, Wanshun Chen, Nan Du, Zenglin Xu
Abstract要約: 一般的に使われているフィードバックデータセットにおける多彩な嗜好の存在を検証するための最初の定量的分析を行う。多様な選好によって生じるアライメントの非効率性を軽減するために,新しいtextbfMulti-textbfObjective textbfReward 学習法を提案する。
参考スコア（独自算出の注目度）: 39.217429347482145
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Aligning large language models (LLMs) with human preferences has been recognized as the key to improving LLMs' interaction quality. However, in this pluralistic world, human preferences can be diversified by people's different tastes, which hinders the effectiveness of LLM alignment methods. In this paper, we provide the first quantitative analysis to verify the existence of diversified preferences in commonly used human feedback datasets. To mitigate the alignment ineffectiveness caused by diversified preferences, we propose a novel \textbf{M}ulti-\textbf{O}bjective \textbf{Re}ward learning method (MORE), which can automatically adjust the learning gradients across different preference data sources. In experiments, we evaluate MORE with the Pythia-1.4B model on five mixed human preference datasets, on which our method achieves superior performance compared with other baselines in terms of preference accuracy and prediction calibration.
Abstract（参考訳）: 大規模言語モデル(LLM)を人間の好みに合わせることが,LLMのインタラクション品質向上の鍵であると認識されている。しかし、この多元的世界では、人間の嗜好は人の好みによって多様化し、LCMアライメント手法の有効性を阻害する。本稿では,一般の人間フィードバックデータセットにおける多様な好みの存在を検証する最初の定量的解析を行う。多様な選好によって生じるアライメントの非効率性を軽減するために,異なる選好データソース間で学習勾配を自動的に調整できる,新規な \textbf{M}ulti-\textbf{O}bjective \textbf{Re}ward learning method (MORE) を提案する。実験では5つの混合ヒト選好データセットにおいてpythia-1.4bモデルを用いて,選好精度と予測校正の点で他の基準よりも優れた性能が得られることを示す。

関連論文リスト

Ensemble Bayesian Inference: Leveraging Small Language Models to Achieve LLM-level Accuracy in Profile Matching Tasks [0.0]
本研究では,プロプライエタリな大規模言語モデル (LLM) に匹敵する精度を実現するため,小型言語モデル (SLM) アンサンブルの可能性を検討する。本稿では,複数のSLMから判断を合成するためにベイズ推定を適用した新しい手法として,EBI(Ensemble Bayesian Inference)を提案する。
論文参考訳（メタデータ） (2025-04-24T15:55:10Z)
IPO: Your Language Model is Secretly a Preference Classifier [1.8921784053120494]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。本稿では、生成言語モデルを選好分類器として活用する代替手法として、Implicit Preference Optimization (IPO)を提案する。この結果から、IPOを通じてトレーニングされたモデルは、最先端の報酬モデルを使って好みを得られるモデルに匹敵するパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2025-02-22T10:59:11Z)
Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
本稿では,応答条件付きBradley-Terryモデルを提案する。また、大規模言語モデルの直接ポリシー最適化(DPO)にRc-BTモデルを利用するRc-DPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-02T14:50:25Z)
Influences on LLM Calibration: A Study of Response Agreement, Loss Functions, and Prompt Styles [4.477423478591491]
Calib-nは、信頼度推定のための補助モデルをトレーニングする新しいフレームワークである。補助的なモデルベース手法では,数発のプロンプトが最も有効であることが判明した。
論文参考訳（メタデータ） (2025-01-07T18:48:42Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文参考訳（メタデータ） (2024-10-22T00:11:41Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
BAPO: Base-Anchored Preference Optimization for Overcoming Forgetting in Large Language Models Personalization [26.526171463511332]
本稿では,パーソナライズされた好み最適化が大規模言語モデル(LLM)に与える影響について検討する。 BAPOは、グローバルな知識や一般的なアライメントを最小限に抑えながら、多様なユーザの好みに効果的に適応する。
論文参考訳（メタデータ） (2024-06-30T13:30:04Z)
A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文参考訳（メタデータ） (2024-06-17T03:52:51Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-02-21T16:15:20Z)
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
Interactive Hyperparameter Optimization in Multi-Objective Problems via Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文参考訳（メタデータ） (2023-09-07T09:22:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。