論文の概要: Aligning Large Language Models with Implicit Preferences from User-Generated Content
- arxiv url: http://arxiv.org/abs/2506.04463v1
- Date: Wed, 04 Jun 2025 21:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.433626
- Title: Aligning Large Language Models with Implicit Preferences from User-Generated Content
- Title(参考訳): ユーザ生成コンテンツからの意図しない選好を伴う大規模言語モデルの調整
- Authors: Zhaoxuan Tan, Zheng Li, Tianyi Liu, Haodong Wang, Hyokun Yun, Ming Zeng, Pei Chen, Zhihan Zhang, Yifan Gao, Ruijie Wang, Priyanka Nigam, Bing Yin, Meng Jiang,
- Abstract要約: 既存の嗜好学習手法は、人間や先進言語モデルからのキュレートされたデータに大きく依存している。
我々は、未ラベルのユーザ生成コンテンツにおける暗黙の人間の嗜好を活用する新しいフレームワークPUGCを提案する。
PUGCは従来の手法に比べて9.37%の性能向上を達成し,35.93%の最先端長制御勝利率を実現した。
- 参考スコア(独自算出の注目度): 47.55847787296592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from preference feedback is essential for aligning large language models (LLMs) with human values and improving the quality of generated responses. However, existing preference learning methods rely heavily on curated data from humans or advanced LLMs, which is costly and difficult to scale. In this work, we present PUGC, a novel framework that leverages implicit human Preferences in unlabeled User-Generated Content (UGC) to generate preference data. Although UGC is not explicitly created to guide LLMs in generating human-preferred responses, it often reflects valuable insights and implicit preferences from its creators that has the potential to address readers' questions. PUGC transforms UGC into user queries and generates responses from the policy model. The UGC is then leveraged as a reference text for response scoring, aligning the model with these implicit preferences. This approach improves the quality of preference data while enabling scalable, domain-specific alignment. Experimental results on Alpaca Eval 2 show that models trained with DPO and PUGC achieve a 9.37% performance improvement over traditional methods, setting a 35.93% state-of-the-art length-controlled win rate using Mistral-7B-Instruct. Further studies highlight gains in reward quality, domain-specific alignment effectiveness, robustness against UGC quality, and theory of mind capabilities. Our code and dataset are available at https://zhaoxuan.info/PUGC.github.io/
- Abstract(参考訳): 好みのフィードバックから学ぶことは、大きな言語モデル(LLM)を人間の価値と整合させ、生成された応答の品質を向上させるために不可欠である。
しかし、既存の選好学習手法は、人間や高度なLCMのキュレートされたデータに大きく依存しているため、スケールが難しく、費用がかかる。
本研究では,UGC(Unlabeled User-Generated Content)における暗黙の人間の嗜好を利用して嗜好データを生成する新しいフレームワークPUGCを提案する。
UGCは、人間に好まれる応答の生成においてLLMを導くために明示的に作成されていないが、読者の質問に答える可能性がある創造者からの貴重な洞察と暗黙の選好を反映していることが多い。
PUGCはUGCをユーザクエリに変換し、ポリシーモデルから応答を生成する。
UGCは、応答スコアリングのための参照テキストとして利用され、これらの暗黙の選好とモデルを整合させる。
このアプローチは、スケーラブルでドメイン固有のアライメントを可能にしながら、好みデータの品質を改善します。
Alpaca Eval 2の実験結果によると、DPOとPUGCで訓練されたモデルは従来の手法よりも9.37%性能が向上し、Mistral-7B-Instructを使って35.93%の最先端のウィンドレートが設定された。
さらに研究は、報酬品質、ドメイン固有のアライメントの有効性、UGC品質に対する堅牢性、マインド能力の理論の利得を強調している。
私たちのコードとデータセットはhttps://zhaoxuan.info/PUGC.github.io/で公開されています。
関連論文リスト
- Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback [41.88662700261036]
RAGシステムは、セマンティックな関連性だけでは生成品質の向上を保証していない場合に制限に直面している。
我々は、LLMと人間の嗜好をよりよく整合させるために、コンテンツ中心のアプローチで設計された新しいRAGフレームワークであるPristis-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-21T08:52:11Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Improving Attributed Text Generation of Large Language Models via Preference Learning [28.09715554543885]
属性タスクを選好学習としてモデル化し,自動選好最適化フレームワークを導入する。
APOは、回答品質の高い最先端の引用F1を達成する。
論文 参考訳(メタデータ) (2024-03-27T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。