論文の概要: Group Preference Alignment: Customized LLM Response Generation from In-Situ Conversations
- arxiv url: http://arxiv.org/abs/2503.08035v1
- Date: Tue, 11 Mar 2025 04:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:28.540489
- Title: Group Preference Alignment: Customized LLM Response Generation from In-Situ Conversations
- Title(参考訳): グループ優先アライメント:in-situ会話からのカスタマイズLDM応答生成
- Authors: Ishani Mondal, Jack W. Stokes, Sujay Kumar Jauhar, Longqi Yang, Mengting Wan, Xiaofeng Xu, Xia Song, Jennifer Neville,
- Abstract要約: グループ選好アライメントは、ユーザグループ間での会話選好における文脈固有のバリエーションを特定する。
当社のフレームワークは,ユーザの好みに対する出力のアライメントを大幅に改善し,ベースライン手法よりも優れています。
- 参考スコア(独自算出の注目度): 36.29709573877113
- License:
- Abstract: LLMs often fail to meet the specialized needs of distinct user groups due to their one-size-fits-all training paradigm \cite{lucy-etal-2024-one} and there is limited research on what personalization aspects each group expect. To address these limitations, we propose a group-aware personalization framework, Group Preference Alignment (GPA), that identifies context-specific variations in conversational preferences across user groups and then steers LLMs to address those preferences. Our approach consists of two steps: (1) Group-Aware Preference Extraction, where maximally divergent user-group preferences are extracted from real-world conversation logs and distilled into interpretable rubrics, and (2) Tailored Response Generation, which leverages these rubrics through two methods: a) Context-Tuned Inference (GAP-CT), that dynamically adjusts responses via context-dependent prompt instructions, and b) Rubric-Finetuning Inference (GPA-FT), which uses the rubrics to generate contrastive synthetic data for personalization of group-specific models via alignment. Experiments demonstrate that our framework significantly improves alignment of the output with respect to user preferences and outperforms baseline methods, while maintaining robust performance on standard benchmarks.
- Abstract(参考訳): LLMは、一大の訓練パラダイムであるcite{lucy-etal-2024-one} のために、個々のユーザグループの特別なニーズを満たすことができず、各グループが期待するパーソナライゼーションの側面について限定的な研究がなされている。
これらの制約に対処するために,ユーザグループ間での対話的嗜好の文脈特異的なバリエーションを識別し,それらの嗜好に対処するグループ認識型パーソナライズフレームワークGPA(Group Preference Alignment)を提案する。
提案手法は,(1)グループ・アウェアの選好抽出(グループ・アウェアの選好抽出),(2)グループ・アウェアの選好抽出(グループ・アウェアの選好抽出),(グループ・アウェアの選好抽出),(グループ・アウェアの選好抽出(グループ・アウェアの選好抽出),(グループ・アウェアの選好抽出)の2段階からなる。
a)文脈依存的指示による応答を動的に調整する文脈調整推論(GAP-CT)
ロ ルブリック・フィネッチング推論(GPA-FT)は、ルブリックを用いて、アライメントを介してグループ固有のモデルのパーソナライズのための対照的な合成データを生成する。
実験により、我々のフレームワークは、標準ベンチマークでの堅牢な性能を維持しながら、ユーザの好みに応じて出力のアライメントを著しく改善し、ベースラインメソッドより優れていることが示された。
関連論文リスト
- Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - Unleashing the Power of Large Language Models for Group POI Recommendations [39.49785677738477]
Group Point-of-Interest(POI)推奨は、あるグループのユーザの多様な嗜好を満たす次のPOIを予測することを目的としている。
グループPOIレコメンデーションの既存の方法は、チェックインデータからの単一のIDベースの機能に依存している。
文脈認識グループPOIレコメンデーションのためのLarge Language Model(LLM)のパワーを解放するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-20T16:02:14Z) - GPRec: Bi-level User Modeling for Deep Recommenders [45.38687843911628]
GPRecは学習可能な方法でユーザをグループに分類し、それに対応するグループ埋め込みと整合させる。
個人レベルでは、GPRecはIDのような特徴から個人の好みを識別し、得られた個人表現をグループから独立したものに洗練する。
3つの公開データセット上でのGPRecの厳格なテストでは、推奨品質が大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-28T04:49:05Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Group Preference Optimization: Few-Shot Alignment of Large Language Models [28.464834028110538]
グループ優先最適化(Group Preference Optimization)は、言語モデルを数ショットで個々のグループを選好する。
大規模言語モデルを用いた厳密な評価により, GPOの有効性を実証的に検証した。
以上の結果から,GPOはモデルをより正確に整合させるだけでなく,グループ固有の嗜好を少なくし,トレーニングや推論のリソースを少なくする。
論文 参考訳(メタデータ) (2023-10-17T18:41:57Z) - Overcoming Data Sparsity in Group Recommendation [52.00998276970403]
グループレコメンデータシステムは、ユーザの個人的な好みだけでなく、嗜好集約戦略も正確に学習できなければならない。
本稿では,BGEM(Bipartite Graphding Model)とGCN(Graph Convolutional Networks)を基本構造として,グループとユーザ表現を統一的に学習する。
論文 参考訳(メタデータ) (2020-10-02T07:11:19Z) - GroupIM: A Mutual Information Maximization Framework for Neural Group
Recommendation [24.677145454396822]
本研究では,歴史的活動が限定的あるいは全くないユーザで構成された短命グループを対象とした項目推薦の課題について検討する。
現存する研究は、活動の歴史がかなりある永続的なグループをターゲットにしているが、短命なグループは歴史的な相互作用を欠いている。
本研究では、同一グループに属するユーザ間の嗜好共分散と、各グループに対する個人の嗜好の文脈的関連性の両方を活用するために、データ駆動型正規化戦略を提案する。
論文 参考訳(メタデータ) (2020-06-05T23:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。