Fugu-MT 論文翻訳(概要): Group Preference Optimization: Few-Shot Alignment of Large Language Models

論文の概要: Group Preference Optimization: Few-Shot Alignment of Large Language Models

arxiv url: http://arxiv.org/abs/2310.11523v1
Date: Tue, 17 Oct 2023 18:41:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 18:51:27.252290
Title: Group Preference Optimization: Few-Shot Alignment of Large Language Models
Title（参考訳）: グループ選好最適化:大規模言語モデルの少数ショットアライメント
Authors: Siyan Zhao, John Dang, Aditya Grover
Abstract要約: グループ優先最適化(Group Preference Optimization)は、言語モデルを数ショットで個々のグループを選好する。大規模言語モデルを用いた厳密な評価により, GPOの有効性を実証的に検証した。以上の結果から,GPOはモデルをより正確に整合させるだけでなく,グループ固有の嗜好を少なくし,トレーニングや推論のリソースを少なくする。
参考スコア（独自算出の注目度）: 31.991620847943036
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many applications of large language models (LLMs), ranging from chatbots to creative writing, require nuanced subjective judgments that can differ significantly across different groups. Existing alignment algorithms can be expensive to align for each group, requiring prohibitive amounts of group-specific preference data and computation for real-world use cases. We introduce Group Preference Optimization (GPO), an alignment framework that steers language models to preferences of individual groups in a few-shot manner. In GPO, we augment the base LLM with an independent transformer module trained to predict the preferences of a group for the LLM generations. For few-shot learning, we parameterize this module as an in-context autoregressive transformer and train it via meta-learning on several groups. We empirically validate the efficacy of GPO through rigorous evaluations using LLMs with varied sizes on three human opinion adaptation tasks. These tasks involve adapting to the preferences of US demographic groups, global countries, and individual users. Our results demonstrate that GPO not only aligns models more accurately but also requires fewer group-specific preferences, and less training and inference computing resources, outperforming existing strategies such as in-context steering and fine-tuning methods.
Abstract（参考訳）: 大きな言語モデル(LLM)の多くの応用は、チャットボットからクリエイティブな文章まで、異なるグループ間で大きく異なる主観的判断を必要とする。既存のアライメントアルゴリズムは各グループの調整に費用がかかり、現実のユースケースでは、グループ固有の選好データや計算が禁じられている。グループ優先最適化(GPO: Group Preference Optimization)は、言語モデルから個々のグループを数ショットで選好するアライメントフレームワークである。 GPOでは、LLM世代に対するグループの嗜好を予測するために、独立したトランスフォーマーモジュールでベースLSMを増強する。数ショットの学習では、このモジュールをコンテキスト内自己回帰変換器としてパラメータ化し、複数のグループのメタ学習を通じて学習する。我々は,3つの意見適応タスクにおけるLLMを用いた厳密な評価により,GPOの有効性を実証的に検証した。これらのタスクは、アメリカの人口統計グループ、世界各国、および個人ユーザーの好みに適応することを含む。以上の結果から,GPOはモデルをより正確に整合させるだけでなく,グループ固有の嗜好を少なくし,トレーニングや推論の資源を少なくし,コンテキスト内ステアリングや微調整といった既存手法よりも優れていることが示された。

関連論文リスト

GroupCoOp: Group-robust Fine-tuning via Group Prompt Learning [57.888537648437115]
Group Context Optimization (GroupCoOp) は、単純で効果的な微調整アルゴリズムである。微調整視覚言語モデル(VLM)の群ロバスト性を高める GroupCoOpは、5つのCLIPアーキテクチャにわたる5つのベンチマークで最高の結果を得た。
論文参考訳（メタデータ） (2025-09-28T09:54:30Z)
Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs [77.22973302887435]
グループ相対政策最適化(GRPO)は、後学習言語モデル(LM)に有効なツールであることが証明されている。 GRPOの単純なマルチモジュールであるmmGRPOを提案する。自動的なプロンプト最適化によって構成されたmGRPOは,分類,多項目検索,プライバシー保護デリゲートタスクなどを通じて,平均11%の精度向上を実現している。
論文参考訳（メタデータ） (2025-08-06T17:28:31Z)
The Pitfalls of Growing Group Complexity: LLMs and Social Choice-Based Aggregation for Group Recommendations [2.6470894980840525]
Group Recommender Systems (GRS) は、社会的選択に基づくアグリゲーション戦略を使って単一のレコメンデーションを導いた。ゼロショット学習に基づいて,言語モデルがこれらの戦略を正しく実行できる条件について検討する。 100以上のレーティングを考慮すると、パフォーマンスが低下し始めています。今後の研究は、GRS評価の要素としてグループ複雑性を含むべきであると結論付けている。
論文参考訳（メタデータ） (2025-05-08T07:43:01Z)
Group Preference Alignment: Customized LLM Response Generation from In-Situ Conversations [36.29709573877113]
グループ選好アライメントは、ユーザグループ間での会話選好における文脈固有のバリエーションを特定する。当社のフレームワークは,ユーザの好みに対する出力のアライメントを大幅に改善し,ベースライン手法よりも優れています。
論文参考訳（メタデータ） (2025-03-11T04:32:54Z)
PROPER: A Progressive Learning Framework for Personalized Large Language Models with Group-Level Adaptation [32.53309583561644]
本稿では,社会科学におけるメソレベルの理論に触発された新しい学習フレームワークであるPROPERを提案する。 ProPERは、好みに基づいてユーザーをグループ化し、段階的にLSMを適用することで、人口レベルとユーザーレベルのモデルを橋渡しする。実験の結果,Properは複数のタスクでSOTAモデルよりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-03T08:40:50Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Unleashing the Power of Large Language Models for Group POI Recommendations [39.49785677738477]
Group Point-of-Interest(POI)推奨は、あるグループのユーザの多様な嗜好を満たす次のPOIを予測することを目的としている。グループPOIレコメンデーションの既存の方法は、チェックインデータからの単一のIDベースの機能に依存している。文脈認識グループPOIレコメンデーションのためのLarge Language Model(LLM)のパワーを解放するフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-20T16:02:14Z)
ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。 ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文参考訳（メタデータ） (2024-10-21T14:02:40Z)
MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。 LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文参考訳（メタデータ） (2024-10-18T05:31:13Z)
Pareto-Optimal Learning from Preferences with Hidden Context [18.340302968130683]
本稿では,グループ選好の相違を潜在的なトレードオフを伴う目的とするPOPLを提案する。実験により,POPLは報酬関数の学習において,ベースライン法を超越していることが示された。 POPLは、グループフェアネスの特定の概念を最適化する技術の基礎として機能する。
論文参考訳（メタデータ） (2024-06-21T18:57:38Z)
Group Robust Preference Optimization in Reward-free RLHF [23.622835830345725]
そこで本研究では,大規模言語モデルと各グループの嗜好を密に整合させる新しいグループロバスト選好最適化法を提案する。これを達成するため、GRPOは異なるグループの重要性を適応的かつ順次重み付けし、累積損失が悪化したグループを優先順位付けする。我々は,最悪のパフォーマンス群の性能向上,グループ間の損失不均衡の低減,確率精度の向上について検討した。
論文参考訳（メタデータ） (2024-05-30T17:50:04Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文参考訳（メタデータ） (2024-02-12T17:52:05Z)
Overcoming Data Sparsity in Group Recommendation [52.00998276970403]
グループレコメンデータシステムは、ユーザの個人的な好みだけでなく、嗜好集約戦略も正確に学習できなければならない。本稿では,BGEM(Bipartite Graphding Model)とGCN(Graph Convolutional Networks)を基本構造として,グループとユーザ表現を統一的に学習する。
論文参考訳（メタデータ） (2020-10-02T07:11:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。