論文の概要: Active Preference-based Learning for Multi-dimensional Personalization
- arxiv url: http://arxiv.org/abs/2411.00524v1
- Date: Fri, 01 Nov 2024 11:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:47:22.843931
- Title: Active Preference-based Learning for Multi-dimensional Personalization
- Title(参考訳): 多次元パーソナライズのためのアクティブな嗜好に基づく学習
- Authors: Minhyeon Oh, Seungjoon Lee, Jungseul Ok,
- Abstract要約: 大規模言語モデル(LLM)はタスク間で顕著な汎用性を示しているが、個々の人間の好みに合わせることは依然として困難である。
複数の目的にまたがるユーザの嗜好を推定するためにバイナリフィードバックを用いた能動的嗜好学習フレームワークを提案する。
モデル応答をパーソナライズする上で,言語生成タスクに関する理論的解析と実験を行い,そのフィードバック効率と有効性を示す。
- 参考スコア(独自算出の注目度): 7.349038301460469
- License:
- Abstract: Large language models (LLMs) have shown remarkable versatility across tasks, but aligning them with individual human preferences remains challenging due to the complexity and diversity of these preferences. Existing methods often overlook the fact that preferences are multi-objective, diverse, and hard to articulate, making full alignment difficult. In response, we propose an active preference learning framework that uses binary feedback to estimate user preferences across multiple objectives. Our approach leverages Bayesian inference to update preferences efficiently and reduces user feedback through an acquisition function that optimally selects queries. Additionally, we introduce a parameter to handle feedback noise and improve robustness. We validate our approach through theoretical analysis and experiments on language generation tasks, demonstrating its feedback efficiency and effectiveness in personalizing model responses.
- Abstract(参考訳): 大規模言語モデル(LLM)はタスク間で顕著な汎用性を示しているが、これらの選好の複雑さと多様性のため、個々の人間の選好に合わせることは依然として困難である。
既存の手法では、好みが多目的であり、多様で、明瞭で、完全なアライメントが難しいという事実をしばしば見落としている。
そこで本研究では,複数の目的にまたがるユーザの嗜好を推定するために,バイナリフィードバックを用いた能動的嗜好学習フレームワークを提案する。
提案手法はベイジアン推論を利用して好みを効率的に更新し,クエリを最適に選択する取得機能を通じてユーザのフィードバックを削減する。
さらに、フィードバックノイズに対処し、堅牢性を改善するパラメータも導入する。
モデル応答をパーソナライズする上で,言語生成タスクに関する理論的解析と実験を行い,そのフィードバック効率と有効性を示す。
関連論文リスト
- Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - Provably Efficient Multi-Objective Bandit Algorithms under Preference-Centric Customization [24.533662423325943]
明示的なユーザ嗜好の存在下で、嗜好を意識したMO-MABフレームワークについて検討する。
これは、明示的なユーザの好みを持つカスタマイズされたMO-MAB最適化に関する最初の理論的研究である。
論文 参考訳(メタデータ) (2025-02-19T06:06:13Z) - Uncertain Multi-Objective Recommendation via Orthogonal Meta-Learning Enhanced Bayesian Optimization [30.031396809114625]
本稿では,ルールベースの精度駆動システムから行動認識,不確実な多目的RSに至るまで,RSの自律性を5つの異なるレベルに分類する新しい枠組みを提案する。
個人の好みに基づいて複数の目的を動的に識別し、最適化し、より倫理的でインテリジェントなユーザー中心のレコメンデーションを促進するアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T08:10:09Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - Contrastive Learning Method for Sequential Recommendation based on Multi-Intention Disentanglement [5.734747179463411]
MIDCL(Multi-Intention Disentanglement)に基づくコントラスト学習シーケンシャルレコメンデーション手法を提案する。
私たちの仕事では、意図は動的で多様なものとして認識され、ユーザの振る舞いは、しばしば現在のマルチインテンションによって駆動されます。
本稿では,最も関連性の高いユーザの対話的意図の探索と,正のサンプル対の相互情報の最大化のための2種類のコントラスト学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-28T15:13:36Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Multi-Objective Bayesian Optimization with Active Preference Learning [18.066263838953223]
本稿では,多目的最適化 (MOO) 問題において最も望ましい解を特定するためのベイズ最適化 (BO) 手法を提案する。
また、意思決定者(DM)との相互作用コストを最小限に抑えるため、選好推定のためのアクティブラーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-11-22T15:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。