論文の概要: Group Preference Optimization: Few-Shot Alignment of Large Language
Models
- arxiv url: http://arxiv.org/abs/2310.11523v1
- Date: Tue, 17 Oct 2023 18:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:51:27.252290
- Title: Group Preference Optimization: Few-Shot Alignment of Large Language
Models
- Title(参考訳): グループ選好最適化:大規模言語モデルの少数ショットアライメント
- Authors: Siyan Zhao, John Dang, Aditya Grover
- Abstract要約: グループ優先最適化(Group Preference Optimization)は、言語モデルを数ショットで個々のグループを選好する。
大規模言語モデルを用いた厳密な評価により, GPOの有効性を実証的に検証した。
以上の結果から,GPOはモデルをより正確に整合させるだけでなく,グループ固有の嗜好を少なくし,トレーニングや推論のリソースを少なくする。
- 参考スコア(独自算出の注目度): 31.991620847943036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many applications of large language models (LLMs), ranging from chatbots to
creative writing, require nuanced subjective judgments that can differ
significantly across different groups. Existing alignment algorithms can be
expensive to align for each group, requiring prohibitive amounts of
group-specific preference data and computation for real-world use cases. We
introduce Group Preference Optimization (GPO), an alignment framework that
steers language models to preferences of individual groups in a few-shot
manner. In GPO, we augment the base LLM with an independent transformer module
trained to predict the preferences of a group for the LLM generations. For
few-shot learning, we parameterize this module as an in-context autoregressive
transformer and train it via meta-learning on several groups. We empirically
validate the efficacy of GPO through rigorous evaluations using LLMs with
varied sizes on three human opinion adaptation tasks. These tasks involve
adapting to the preferences of US demographic groups, global countries, and
individual users. Our results demonstrate that GPO not only aligns models more
accurately but also requires fewer group-specific preferences, and less
training and inference computing resources, outperforming existing strategies
such as in-context steering and fine-tuning methods.
- Abstract(参考訳): 大きな言語モデル(LLM)の多くの応用は、チャットボットからクリエイティブな文章まで、異なるグループ間で大きく異なる主観的判断を必要とする。
既存のアライメントアルゴリズムは各グループの調整に費用がかかり、現実のユースケースでは、グループ固有の選好データや計算が禁じられている。
グループ優先最適化(GPO: Group Preference Optimization)は、言語モデルから個々のグループを数ショットで選好するアライメントフレームワークである。
GPOでは、LLM世代に対するグループの嗜好を予測するために、独立したトランスフォーマーモジュールでベースLSMを増強する。
数ショットの学習では、このモジュールをコンテキスト内自己回帰変換器としてパラメータ化し、複数のグループのメタ学習を通じて学習する。
我々は,3つの意見適応タスクにおけるLLMを用いた厳密な評価により,GPOの有効性を実証的に検証した。
これらのタスクは、アメリカの人口統計グループ、世界各国、および個人ユーザーの好みに適応することを含む。
以上の結果から,GPOはモデルをより正確に整合させるだけでなく,グループ固有の嗜好を少なくし,トレーニングや推論の資源を少なくし,コンテキスト内ステアリングや微調整といった既存手法よりも優れていることが示された。
関連論文リスト
- PMG : Personalized Multimodal Generation with Large Language Models [20.778869086174137]
本稿では,大規模言語モデル(LLM)を用いたパーソナライズされたマルチモーダル生成手法を提案する。
2つのデータセットに関する広範な実験を通じて、その応用を実証し、その性能を検証する。
PMGのパーソナライゼーションはLPIPSで最大8%向上し, 生成精度は向上した。
論文 参考訳(メタデータ) (2024-04-07T03:05:57Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Do Membership Inference Attacks Work on Large Language Models? [145.90022632726883]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Active Preference Inference using Language Models and Probabilistic
Reasoning [15.198912276468198]
本稿では,大規模言語モデルによるユーザの嗜好の推測を支援する推論時アルゴリズムを提案する。
我々のアルゴリズムは, LLM を誘導することで条件分布が定義される確率モデルを用いている。
実商品を用いた簡易な対話型Webショッピング設定の結果, エントロピー低減アルゴリズムを備えたLCMは, ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-12-19T09:58:54Z) - Multitask Learning Can Improve Worst-Group Outcomes [76.92646345152788]
マルチタスク学習(MTL)は、そのような広く使われている技法の一つである。
我々は,共同マルチタスク表現空間を正規化することにより,標準MTLを変更することを提案する。
正規化MTLアプローチは,平均群と最低群の両方でJTTを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-05T21:38:24Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Robust Prompt Optimization for Large Language Models Against
Distribution Shifts [80.6757997074956]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。
本稿では,LLMの分散シフトに対するロバストな最適化法を提案する。
この問題は、ラベル付けされたソースグループに最適化されたプロンプトを同時にラベル付けされていないターゲットグループに一般化する必要がある。
論文 参考訳(メタデータ) (2023-05-23T11:30:43Z) - Just Train Twice: Improving Group Robustness without Training Group
Information [101.84574184298006]
経験的リスク最小化による標準トレーニングは、特定のグループにおける平均的かつ低い精度で高い精度を達成するモデルを生成することができる。
群分布的ロバストな最適化 (group DRO) のような、最悪のグループ精度を達成する以前のアプローチでは、トレーニングポイントごとに高価なグループアノテーションが必要である。
本稿では,複数のエポックに対して標準的なERMモデルを訓練し,第1モデルが誤分類したトレーニング例を重み付けする第2モデルを訓練する,単純な2段階のアプローチであるJTTを提案する。
論文 参考訳(メタデータ) (2021-07-19T17:52:32Z) - Overcoming Data Sparsity in Group Recommendation [52.00998276970403]
グループレコメンデータシステムは、ユーザの個人的な好みだけでなく、嗜好集約戦略も正確に学習できなければならない。
本稿では,BGEM(Bipartite Graphding Model)とGCN(Graph Convolutional Networks)を基本構造として,グループとユーザ表現を統一的に学習する。
論文 参考訳(メタデータ) (2020-10-02T07:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。