論文の概要: Persona-judge: Personalized Alignment of Large Language Models via Token-level Self-judgment
- arxiv url: http://arxiv.org/abs/2504.12663v1
- Date: Thu, 17 Apr 2025 05:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 22:47:35.759411
- Title: Persona-judge: Personalized Alignment of Large Language Models via Token-level Self-judgment
- Title(参考訳): ペルソナ・ジャッジ:トークンレベルの自己判断による大規模言語モデルのパーソナライズされたアライメント
- Authors: Xiaotian Zhang, Ruizhe Chen, Yang Feng, Zuozhu Liu,
- Abstract要約: ペルソナ・ジャッジ(Persona-judge)は、トレーニング不要なパーソナライズされたアライメントと、目に見えない好みのアライメントを可能にする、新しい差別的パラダイムである。
Persona-judgeは、パーソナライズされたアライメントに対して、スケーラブルで、計算的に効率的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 21.677859755364334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning language models with human preferences presents significant challenges, particularly in achieving personalization without incurring excessive computational costs. Existing methods rely on reward signals and additional annotated data, limiting their scalability and adaptability to diverse human values. To address these challenges, we introduce Persona-judge, a novel discriminative paradigm that enables training-free personalized alignment with unseen preferences. Instead of optimizing policy parameters through external reward feedback, Persona-judge leverages the intrinsic preference judgment capabilities of the model. Specifically, a draft model generates candidate tokens conditioned on a given preference, while a judge model, embodying another preference, cross-validates the predicted tokens whether to be accepted. Experimental results demonstrate that Persona-judge, using the inherent preference evaluation mechanisms of the model, offers a scalable and computationally efficient solution to personalized alignment, paving the way for more adaptive customized alignment.
- Abstract(参考訳): 言語モデルを人間の好みで調整することは、特に過剰な計算コストを伴わずにパーソナライゼーションを達成する上で大きな課題となる。
既存の方法は報酬信号と追加のアノテートされたデータに依存しており、そのスケーラビリティと適応性を様々な人間の値に制限している。
これらの課題に対処するために、トレーニング不要なパーソナライズされたアライメントと、目に見えない好みの調整を可能にする、新しい差別的パラダイムであるPersona-judgeを導入する。
外部からの報酬フィードバックを通じてポリシーパラメータを最適化する代わりに、ペルソナ・ジャッジはモデルの本質的な選好判断能力を活用する。
具体的には、ドラフトモデルが所定の嗜好に基づいて条件付き候補トークンを生成し、また、別の選好を具現化した審査モデルが、受理すべきか否かを予測トークンを相互に検証する。
実験の結果,Persona-judgeはモデル固有の嗜好評価機構を用いて,パーソナライズされたアライメントに対するスケーラブルで計算的に効率的なソリューションを提供し,より適応的なアライメントを実現することができた。
関連論文リスト
- Latent Embedding Adaptation for Human Preference Alignment in Diffusion Planners [16.863492060519157]
本研究は,自動意思決定システムにおける軌跡のパーソナライズという課題に対処する。
本研究では,個人の好みに迅速に適応できる資源効率の高い手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T05:11:58Z) - Capturing Individual Human Preferences with Reward Features [47.43999785878563]
個人の好みを一般報酬特徴の線形結合として捉えることができることを示す。
このような特徴を学習し、その後、報酬モデルを特定の個人に迅速に適応させる方法を示します。
提案するアーキテクチャを非適応型報酬モデルと適応型報酬モデルと比較し,大規模言語モデルを用いた実験を行った。
論文 参考訳(メタデータ) (2025-03-21T17:39:33Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Unsupervised Human Preference Learning [7.959043497459107]
大きな言語モデルは印象的な推論能力を示しているが、パーソナライズされたコンテンツを提供するのに苦労している。
文脈内学習やパラメータ効率のよい微調整といった既存の手法は、人間の嗜好の複雑さを捉えるには不十分である。
そこで本研究では,より大規模で事前学習されたモデルを示す自然言語規則を生成するために,小パラメータモデルを選好エージェントとして活用する手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T17:51:01Z) - Personality Alignment of Large Language Models [30.710131188931317]
パーソナリティ・アライメント(Personality Alignment)は、大きな言語モデルと個々のユーザの好みを合わせることを目的としている。
このデータセットには、複数のパーソナリティアセスメントを含む、32万人以上の実際の被験者のデータが含まれている。
本研究では,個人の行動選好を効率的に整合させるために,アクティベーション介入最適化手法を開発した。
私たちの仕事は、未来のAIシステムが真にパーソナライズされた方法で意思決定と推論を行うための道を開くものです。
論文 参考訳(メタデータ) (2024-08-21T17:09:00Z) - Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier [0.5120567378386615]
大規模言語モデル(LLM)の整合化のための統一的アプローチを提案する。
好みと補助目的の単純な分解に基づいて、ユーザとデザイナーの好みを最適化するためにLLMをチューニングできる。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。