論文の概要: Aligning to Thousands of Preferences via System Message Generalization
- arxiv url: http://arxiv.org/abs/2405.17977v2
- Date: Tue, 05 Nov 2024 04:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:56:49.613986
- Title: Aligning to Thousands of Preferences via System Message Generalization
- Title(参考訳): システム・メッセージ・ジェネリゼーションによる数千の選好の調整
- Authors: Seongyun Lee, Sue Hyun Park, Seungone Kim, Minjoon Seo,
- Abstract要約: 現在の大言語モデル (LLM) のアライメント手法は、LLMを一般大衆の好みに合わせることが最適であると仮定している。
本稿では,ユーザがシステムメッセージ内で最も価値の高いものを指定できる新しいパラダイムを提案する。
私たちはJanusと呼ばれる7B LLMをトレーニングし、ユーザの好みを反映したさまざまな未知のシステムメッセージを追加することで、921プロンプトでそれをテストします。
JanusはMistral 7B Instruct v0.2, GPT-3.5 Turbo, GPT-4に対して75.2%, 72.4%, 66.4%のタイ+ウィン率を達成した。
- 参考スコア(独自算出の注目度): 27.88755105590786
- License:
- Abstract: Although humans inherently have diverse values, current large language model (LLM) alignment methods often assume that aligning LLMs with the general public's preferences is optimal. A major challenge in adopting a more individualized approach to LLM alignment is its lack of scalability, as it involves repeatedly acquiring preference data and training new reward models and LLMs for each individual's preferences. To address these challenges, we propose a new paradigm where users specify what they value most within the system message, steering the LLM's generation behavior to better align with the user's intentions. However, a naive application of such an approach is non-trivial since LLMs are typically trained on a uniform system message (e.g., "You are a helpful assistant") which limits their ability to generalize to diverse, unseen system messages. To improve this generalization, we create the Multifaceted Collection, a preference dataset with 192k combinations of values beyond generic helpfulness and harmlessness, spanning 65k user instructions. Using this dataset, we train a 7B LLM called Janus and test it on 921 prompts from 5 benchmarks (AlpacaEval 2.0, FLASK, Koala, MT-Bench, and Self-Instruct) by adding various unseen system messages that reflect user preferences. Janus achieves tie+win rate of 75.2%, 72.4%, and 66.4% against Mistral 7B Instruct v0.2, GPT-3.5 Turbo, and GPT-4, respectively. Unexpectedly, on three benchmarks focused on response helpfulness (AlpacaEval 2.0, MT-Bench, Arena Hard Auto v0.1), Janus also outperforms LLaMA 3 8B Instruct by a +4.0%, +0.1%, +3.0% margin, underscoring that training with a vast array of system messages could also enhance alignment to the general public's preference as well. Our code, dataset, benchmark, and models are available at https://github.com/kaistAI/Janus.
- Abstract(参考訳): 人間は本質的に様々な値を持っているが、現在の大規模言語モデル(LLM)アライメント手法は、LLMと一般大衆の嗜好の整合が最適であると仮定することが多い。
LLMアライメントにより個別化されたアプローチを採用する際の大きな課題はスケーラビリティの欠如である。
これらの課題に対処するために,ユーザがシステムメッセージ内で最も価値の高いものを指定し,LLMの生成動作をユーザの意図に適合させる,新たなパラダイムを提案する。
しかし、このようなアプローチの素直な応用は、通常、LLMは均一なシステムメッセージ(例えば"あなたもアシスタントである")で訓練されているため、多種多様なシステムメッセージに一般化する能力を制限するため、簡単ではない。
この一般化を改善するために、65kのユーザ命令にまたがる、汎用的な有用性と無害性を超えた192kの値の組み合わせからなる選好データセットであるMultifaceted Collectionを作成しました。
このデータセットを使用して、Janusと呼ばれる7B LLMをトレーニングし、ユーザの好みを反映したさまざまな未知のシステムメッセージを追加することで、5つのベンチマーク(AlpacaEval 2.0、FLASK、Koala、MT-Bench、Self-Instruct)から921のプロンプトでテストします。
JanusはMistral 7B Instruct v0.2, GPT-3.5 Turbo, GPT-4に対して75.2%, 72.4%, 66.4%のタイ+ウィン率を達成した。
予想外の3つのベンチマーク(AlpacaEval 2.0, MT-Bench, Arena Hard Auto v0.1)では、JanusはLLaMA 3 8Bインストラクションを+4.0%, +0.1%, +3.0%で上回り、システムメッセージの膨大な配列によるトレーニングが一般大衆の嗜好と整合する可能性があることを強調した。
私たちのコード、データセット、ベンチマーク、モデルはhttps://github.com/kaistAI/Janus.comで公開されています。
関連論文リスト
- CREAM: Consistency Regularized Self-Rewarding Language Models [34.325289477993586]
自己回帰型大規模言語モデル (LLM) は, 優先データに対する人間のアノテーションを必要とせずに, LLM-as-a-Judge を用いてアライメント性能を向上させることに成功した。
しかし、報酬とランキングの正確性は保証されていないため、精度の高い報酬と高品質な選好データを保証するのに不可欠である。
本稿では,各イテレーション間の報酬整合性を利用して自己回帰訓練を規則化する一貫性正規化sElf-rewarding lAnguage Model (CREAM)を提案する。
論文 参考訳(メタデータ) (2024-10-16T16:51:01Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment [57.03947082589616]
大規模言語モデル(LLM)は、しばしばコントラスト的なアライメント目標と選好ペアデータセットを使用してアライメントされる。
これについて検討し、基礎となる応答が対照的な場合、嗜好データがより良い学習信号を与えることを示した。
我々は、よりコントラスト的な選好ペアを生み出すデータ生成手法である、AI Revisions (CLAIR) からのコントラスト学習を紹介する。
我々の最良のモデルは、APOで32K CLAIRの選好に基づいて訓練され、Llama-3-8B-Instructを7.65%改善し、GPT4-turboとのギャップを45%短縮しました。
論文 参考訳(メタデータ) (2024-08-12T16:24:51Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning [38.29072578390376]
より長い応答に対する微調整は、命令微調整の作業においてデフォルトのベースラインであるべきであることを示す。
いくつかのLLM(Llama-2-7B,Llama-2-13B,Mistral-7B-v0.1)とデータセット(Alpaca-52k,Evol-Instruct-70k)に対してこれを実証する。
論文 参考訳(メタデータ) (2024-02-07T13:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。