論文の概要: FaST: Feature-aware Sampling and Tuning for Personalized Preference Alignment with Limited Data
- arxiv url: http://arxiv.org/abs/2508.04698v1
- Date: Wed, 06 Aug 2025 17:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.866113
- Title: FaST: Feature-aware Sampling and Tuning for Personalized Preference Alignment with Limited Data
- Title(参考訳): FaST: 限定データによるパーソナライズされた選好アライメントのための特徴認識サンプリングとチューニング
- Authors: Thibaut Thonet, Germán Kruszewski, Jos Rozen, Pierre Erbacher, Marc Dymetman,
- Abstract要約: 私たちは、ユーザ1人当たりの好みアノテーションの小さなセットだけを収集できるような、実用的で難しい設定に重点を置いています。
この分野での研究を支援するために、DnDとELIPという2つのデータセットを紹介します。
本稿では,データから自動的に検出される高次特徴を活用する,パラメータ効率の高いアプローチであるFaSTを提案する。
- 参考スコア(独自算出の注目度): 14.12452005994486
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLM-powered conversational assistants are often deployed in a one-size-fits-all manner, which fails to accommodate individual user preferences. Recently, LLM personalization -- tailoring models to align with specific user preferences -- has gained increasing attention as a way to bridge this gap. In this work, we specifically focus on a practical yet challenging setting where only a small set of preference annotations can be collected per user -- a problem we define as Personalized Preference Alignment with Limited Data (PPALLI). To support research in this area, we introduce two datasets -- DnD and ELIP -- and benchmark a variety of alignment techniques on them. We further propose FaST, a highly parameter-efficient approach that leverages high-level features automatically discovered from the data, achieving the best overall performance.
- Abstract(参考訳): LLMを利用した会話アシスタントは、一大の方法で展開されることが多いが、これは個々のユーザの好みを満たさない。
最近では、このギャップを埋める手段として、LLMパーソナライゼーション -- 特定のユーザの好みに合わせてモデルを調整する -- が注目されている。
本研究では,ユーザ毎の好みアノテーションの小さなセットのみを収集する,実践的かつ困難な設定に特化しています -- 限定データ(PPALLI)によるパーソナライズされた優先度調整(Personalized Preference Alignment with Limited Data)と定義する問題です。この分野の研究を支援するために,DnDとELIPという2つのデータセットを導入して,さまざまなアライメントテクニックをベンチマークします。
さらに、データから自動的に検出される高レベルな特徴を活用し、全体的な性能を最大限に発揮する、パラメータ効率の高いアプローチであるFaSTを提案する。
関連論文リスト
- ProDS: Preference-oriented Data Selection for Instruction Tuning [16.416482636797504]
本稿では,ターゲットセットで観測された嗜好と整合性に基づいてトレーニングサンプルをスコアリングするPreference-oriented Data Selection法(ProDS)を提案する。
私たちの重要なイノベーションは、データ選択の基準を、単に正確なレスポンス生成のための機能を見積もることから、トレーニングサンプルを目標タスクにおける人間の好みと明示的に整合させることにシフトすることにあります。
論文 参考訳(メタデータ) (2025-05-19T06:28:14Z) - Measuring What Makes You Unique: Difference-Aware User Modeling for Enhancing LLM Personalization [68.79814761867314]
本稿では,Large Language Models (LLM) のパーソナライゼーションを強化するために,差分認識パーソナライズ学習(DPL)を提案する。
DPLは、戦略的に代表ユーザを比較のために選択し、タスク関連の違いを抽出するための構造化標準を確立する。
実世界のデータセットの実験により、DPLはLLMのパーソナライゼーションを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-03-04T09:53:26Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - Orchestrating LLMs with Different Personalizations [28.344891363780576]
本稿では,大規模言語モデル(LLM)と個人の嗜好を一致させる新しいアプローチを提案する。
有用性、簡潔性、ユーモアなど、複数の次元に沿って記述された嗜好を踏まえると、ゴールは、この仕様に最もよく準拠する再訓練をせずにLLMを作成することである。
1つの特定の選好次元で訓練された専門的なLSMから始め、各トーケンレベルで出力をマージするブラックボックス法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:55:02Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier [0.5120567378386615]
大規模言語モデル(LLM)の整合化のための統一的アプローチを提案する。
好みと補助目的の単純な分解に基づいて、ユーザとデザイナーの好みを最適化するためにLLMをチューニングできる。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。