Fugu-MT 論文翻訳(概要): PersonalLLM: Tailoring LLMs to Individual Preferences

論文の概要: PersonalLLM: Tailoring LLMs to Individual Preferences

arxiv url: http://arxiv.org/abs/2409.20296v1
Date: Mon, 30 Sep 2024 13:55:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-02 10:12:47.506533
Title: PersonalLLM: Tailoring LLMs to Individual Preferences
Title（参考訳）: PersonalLLM: LLMを個別に選好する
Authors: Thomas P. Zollo, Andrew Wei Tung Siah, Naimeng Ye, Ang Li, Hongseok Namkoong,
Abstract要約: 我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
参考スコア（独自算出の注目度）: 11.717169516971856
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As LLMs become capable of complex tasks, there is growing potential for personalized interactions tailored to the subtle and idiosyncratic preferences of the user. We present a public benchmark, PersonalLLM, focusing on adapting LLMs to provide maximal benefits for a particular user. Departing from existing alignment benchmarks that implicitly assume uniform preferences, we curate open-ended prompts paired with many high-quality answers over which users would be expected to display heterogeneous latent preferences. Instead of persona-prompting LLMs based on high-level attributes (e.g., user's race or response length), which yields homogeneous preferences relative to humans, we develop a method that can simulate a large user base with diverse preferences from a set of pre-trained reward models. Our dataset and generated personalities offer an innovative testbed for developing personalization algorithms that grapple with continual data sparsity--few relevant feedback from the particular user--by leveraging historical data from other (similar) users. We explore basic in-context learning and meta-learning baselines to illustrate the utility of PersonalLLM and highlight the need for future methodological development. Our dataset is available at https://huggingface.co/datasets/namkoong-lab/PersonalLLM
Abstract（参考訳）: LLMが複雑なタスクをこなすようになるにつれ、ユーザの微妙で慣用的な好みに合わせてパーソナライズされたインタラクションの可能性が高まっている。我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。均一な選好を暗黙的に仮定する既存のアライメントベンチマークとは別に、我々は、不均一な潜伏選好を表示することを期待される多くの高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。人に対して均質な嗜好をもたらす高レベルな属性(例えば、ユーザの人種や応答長)に基づく個人プロンプティング LLM の代わりに、事前学習された報酬モデルから多種多様な嗜好を持つ大規模ユーザベースをシミュレートする手法を開発した。我々のデータセットと生成されたパーソナリティは、個人化アルゴリズムを開発するための革新的なテストベッドを提供します。我々は、PersonalLLMの実用性を説明するために、基礎的なコンテキスト内学習とメタラーニングベースラインを探求し、今後の方法論開発の必要性を強調した。私たちのデータセットはhttps://huggingface.co/datasets/namkoong-lab/PersonalLLMで利用可能です。

関連論文リスト

Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions [50.70965714314064]
大規模言語モデル(LLM)は、ユーザが拡張されたインタラクションよりも複雑で多様な好みを共有するパーソナルアシスタントとして、ますます機能している。この研究は、パーソナライズされたユーザ-LLMインタラクションにおいて、リアルな嗜好フォローを評価するためのベンチマークであるRealPrefを提案する。
論文参考訳（メタデータ） (2026-03-04T15:42:43Z)
Synthetic Interaction Data for Scalable Personalization in Large Language Models [67.31884245564086]
本稿ではPersonaGymという高忠実な合成データ生成フレームワークを紹介する。パーソナライゼーションを静的なペルソナ-参照ペアとして扱う以前の作業とは異なり、PersonaGymは動的な選好プロセスをモデル化する。我々は,高忠実度マルチターンパーソナライズされたインタラクショントラジェクトリの大規模かつ高品質で多様な合成データセットであるPersonaAtlasをリリースする。
論文参考訳（メタデータ） (2026-02-12T20:41:22Z)
HyPerAlign: Hypotheses-driven Personalized Alignment [24.67727411391369]
大規模言語モデル(LLM)のための仮説駆動型パーソナライズ手法(HyPerAlign)を提案する。検討的なアライメントのために、LLMモデルの有効性は平均して70ドルまで改善される。著者の帰属について、結果は、最先端の選好微調整アプローチに対して、常に高い勝利率(通常90%ドル)を示す。
論文参考訳（メタデータ） (2025-04-29T18:01:46Z)
Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。 PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。 LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文参考訳（メタデータ） (2025-04-19T08:16:10Z)
Measuring What Makes You Unique: Difference-Aware User Modeling for Enhancing LLM Personalization [68.79814761867314]
本稿では,Large Language Models (LLM) のパーソナライゼーションを強化するために,差分認識パーソナライズ学習(DPL)を提案する。 DPLは、戦略的に代表ユーザを比較のために選択し、タスク関連の違いを抽出するための構造化標準を確立する。実世界のデータセットの実験により、DPLはLLMのパーソナライゼーションを大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-03-04T09:53:26Z)
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文参考訳（メタデータ） (2025-02-26T17:08:46Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
ULMRec: User-centric Large Language Model for Sequential Recommendation [16.494996929730927]
ユーザがカスタマイズした好みを大規模言語モデルに統合するフレームワークであるULMRecを提案する。 2つの公開データセットに対する大規模な実験は、ULMRecが既存の手法を大幅に上回っていることを示している。
論文参考訳（メタデータ） (2024-12-07T05:37:00Z)
Optimizing Data Delivery: Insights from User Preferences on Visuals, Tables, and Text [59.68239795065175]
ユーザが質問を提示するユーザスタディを実施し、何を見たいのかを尋ねます。ユーザの個人的特性が、彼らが好むデータ出力に影響を与えることを確認するために、このデータを使用します。
論文参考訳（メタデータ） (2024-11-12T00:24:31Z)
Retrieval-Augmented Personalization for Multimodal Large Language Models [53.304699445700926]
本稿では,MLLMのパーソナライズのためのRAP(Retrieval Augmented Personalization)フレームワークを紹介する。 RAPは、外部データベースを更新することで、リアルタイムの概念編集を可能にする。 RAP-MLLMは、追加の微調整なしで無限の視覚概念に一般化することができる。
論文参考訳（メタデータ） (2024-10-17T09:10:26Z)
Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文参考訳（メタデータ） (2024-10-04T17:48:29Z)
LLMs + Persona-Plug = Personalized LLMs [41.60364110693824]
パーソナライゼーションは多くの言語タスクやアプリケーションにおいて重要な役割を担っている。これにより、大きな言語モデル(LLM)を適用して、ユーザの好みに合わせてカスタマイズされたアウトプットを生成する、さまざまなパーソナライズされたアプローチが開発された。そこで我々は,LLMモデルを提案する。軽量なプラグインユーザ埋め込みモジュールを用いて,過去の状況をすべてモデル化し,個人毎のユーザ固有の埋め込みを構築する。
論文参考訳（メタデータ） (2024-09-18T11:54:45Z)
Personality Alignment of Large Language Models [26.071445846818914]
大規模言語モデル(LLM)を整列する現在の手法は、一般的に一般的な人間の価値観や振る舞いを反映することを目的としている。パーソナリティアライメントの概念を紹介する。このアプローチは、個々のユーザや近縁なグループの特定の嗜好に合うように、LSMの反応と決定を調整します。
論文参考訳（メタデータ） (2024-08-21T17:09:00Z)
Orchestrating LLMs with Different Personalizations [28.344891363780576]
本稿では,大規模言語モデル(LLM)と個人の嗜好を一致させる新しいアプローチを提案する。有用性、簡潔性、ユーモアなど、複数の次元に沿って記述された嗜好を踏まえると、ゴールは、この仕様に最もよく準拠する再訓練をせずにLLMを作成することである。 1つの特定の選好次元で訓練された専門的なLSMから始め、各トーケンレベルで出力をマージするブラックボックス法を提案する。
論文参考訳（メタデータ） (2024-07-04T22:55:02Z)
Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
Doing Personal LAPS: LLM-Augmented Dialogue Construction for Personalized Multi-Session Conversational Search [9.243535345193711]
提案手法は,大規模言語モデルを用いて,個人化された対話を生成するために,一人の人間労働者を誘導する。 LAPSは大規模、人書き、マルチセッション、マルチドメインの会話を収集できる。その結果,抽出された嗜好を用いて明示的に生成した応答は,ユーザの実際の嗜好と一致していることがわかった。
論文参考訳（メタデータ） (2024-05-06T13:53:03Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。 LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文参考訳（メタデータ） (2023-10-17T20:22:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。