論文の概要: Aligning to Thousands of Preferences via System Message Generalization
- arxiv url: http://arxiv.org/abs/2405.17977v1
- Date: Tue, 28 May 2024 09:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:28:09.161762
- Title: Aligning to Thousands of Preferences via System Message Generalization
- Title(参考訳): システム・メッセージ・ジェネリゼーションによる数千の選好の調整
- Authors: Seongyun Lee, Sue Hyun Park, Seungone Kim, Minjoon Seo,
- Abstract要約: 現在の大言語モデル (LLM) のアライメント手法は、LLMを一般大衆の好みに合わせることが最適であると仮定している。
本稿では,ユーザがシステムメッセージ内で最も価値の高いものを指定できる新しいパラダイムを提案する。
私たちはJanusと呼ばれる7B LLMをトレーニングし、ユーザの好みを反映したさまざまな未知のシステムメッセージを追加することで、921プロンプトでそれをテストします。
JanusはMistral 7B Instruct v0.2, GPT-3.5 Turbo, GPT-4に対して75.2%, 72.4%, 66.4%のタイ+ウィン率を達成した。
- 参考スコア(独自算出の注目度): 27.88755105590786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although humans inherently have diverse values, current large language model (LLM) alignment methods often assume that aligning LLMs with the general public's preferences is optimal. A major challenge in adopting a more individualized approach to LLM alignment is its lack of scalability, as it involves repeatedly acquiring preference data and training new reward models and LLMs for each individual's preferences. To address these challenges, we propose a new paradigm where users specify what they value most within the system message, steering the LLM's generation behavior to better align with the user's intentions. However, a naive application of such an approach is non-trivial since LLMs are typically trained on a uniform system message (e.g., "You are a helpful assistant") which limits their ability to generalize to diverse, unseen system messages. To improve this generalization, we create the Multifaceted Collection, a preference dataset with 192k combinations of values beyond generic helpfulness and harmlessness, spanning 65k user instructions. Using this dataset, we train a 7B LLM called Janus and test it on 921 prompts from 5 benchmarks (AlpacaEval 2.0, FLASK, Koala, MT-Bench, and Self-Instruct) by adding various unseen system messages that reflect user preferences. Janus achieves tie+win rate of 75.2%, 72.4%, and 66.4% against Mistral 7B Instruct v0.2, GPT-3.5 Turbo, and GPT-4, respectively. Unexpectedly, on three benchmarks focused on response helpfulness (AlpacaEval 2.0, MT-Bench, Arena Hard Auto v0.1), Janus also outperforms LLaMA 3 8B Instruct by a +4.0%, +0.1%, +3.0% margin, underscoring that training with a vast array of system messages could also enhance alignment to the general public's preference as well. Our code, dataset, benchmark, and models are available at https://github.com/kaistAI/Janus.
- Abstract(参考訳): 人間は本質的に様々な値を持っているが、現在の大規模言語モデル(LLM)アライメント手法は、LLMと一般大衆の嗜好の整合が最適であると仮定することが多い。
LLMアライメントにより個別化されたアプローチを採用する際の大きな課題はスケーラビリティの欠如である。
これらの課題に対処するために,ユーザがシステムメッセージ内で最も価値の高いものを指定し,LLMの生成動作をユーザの意図に適合させる,新たなパラダイムを提案する。
しかし、このようなアプローチの素直な応用は、通常、LLMは均一なシステムメッセージ(例えば"あなたもアシスタントである")で訓練されているため、多種多様なシステムメッセージに一般化する能力を制限するため、簡単ではない。
この一般化を改善するために、65kのユーザ命令にまたがる、汎用的な有用性と無害性を超えた192kの値の組み合わせからなる選好データセットであるMultifaceted Collectionを作成しました。
このデータセットを使用して、Janusと呼ばれる7B LLMをトレーニングし、ユーザの好みを反映したさまざまな未知のシステムメッセージを追加することで、5つのベンチマーク(AlpacaEval 2.0、FLASK、Koala、MT-Bench、Self-Instruct)から921のプロンプトでテストします。
JanusはMistral 7B Instruct v0.2, GPT-3.5 Turbo, GPT-4に対して75.2%, 72.4%, 66.4%のタイ+ウィン率を達成した。
予想外の3つのベンチマーク(AlpacaEval 2.0, MT-Bench, Arena Hard Auto v0.1)では、JanusはLLaMA 3 8Bインストラクションを+4.0%, +0.1%, +3.0%で上回り、システムメッセージの膨大な配列によるトレーニングが一般大衆の嗜好と整合する可能性があることを強調した。
私たちのコード、データセット、ベンチマーク、モデルはhttps://github.com/kaistAI/Janus.comで公開されています。
関連論文リスト
- Decoding-Time Language Model Alignment with Multiple Objectives [88.64776769490732]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing [48.07915731998946]
我々はMagpieという名の大規模アライメントデータを生成する自己合成法を提案する。
我々はこの手法を用いてLlama-3-Instructを誘導し、対応する応答とともに400万の命令を生成する。
以上の結果から,Magpieを微調整したモデルでは,公式のLlama-3-8B-インストラクトと同等に動作することが示唆された。
論文 参考訳(メタデータ) (2024-06-12T17:52:30Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [90.4820014819937]
本稿では,分布域外領域を積極的に探索するために,潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観的手法を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整すると,SELMは命令追従ベンチマークの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Reformatted Alignment [27.79684742862816]
データ品質を改善するための現在の手法は、労働集約的であるか、幻覚によって引き起こされる事実上の誤りを招きやすいかのいずれかである。
本稿では,ReAlignという簡易かつ効果的な手法を導入し,命令データの応答を予め確立された基準と照合された証拠に適合する形式に再構成する。
実験的に、ReAlignはLLMの一般的なアライメント能力、数学的推論、事実性、可読性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-02-19T15:21:58Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning [38.29072578390376]
より長い応答に対する微調整は、命令微調整の作業においてデフォルトのベースラインであるべきであることを示す。
いくつかのLLM(Llama-2-7B,Llama-2-13B,Mistral-7B-v0.1)とデータセット(Alpaca-52k,Evol-Instruct-70k)に対してこれを実証する。
論文 参考訳(メタデータ) (2024-02-07T13:32:11Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。