Fugu-MT 論文翻訳(概要): NextQuill: Causal Preference Modeling for Enhancing LLM Personalization

論文の概要: NextQuill: Causal Preference Modeling for Enhancing LLM Personalization

arxiv url: http://arxiv.org/abs/2506.02368v1
Date: Tue, 03 Jun 2025 02:08:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 04:22:50.786947
Title: NextQuill: Causal Preference Modeling for Enhancing LLM Personalization
Title（参考訳）: NextQuill: LLMパーソナライゼーション向上のための因果選好モデリング
Authors: Xiaoyan Zhao, Juntao You, Yang Zhang, Wenjie Wang, Hong Cheng, Fuli Feng, See-Kiong Ng, Tat-Seng Chua,
Abstract要約: 因果選好モデルに基づく新しいパーソナライズフレームワークであるNextQuillを紹介する。この洞察に基づいて、NextQuillは2つの補完的なアライメント戦略を導入した。複数のパーソナライズベンチマークの実験により、NextQuillはパーソナライズ品質を大幅に改善することが示された。
参考スコア（独自算出の注目度）: 82.15961484963256
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Personalizing large language models (LLMs) for individual users has become increasingly important as they are progressively integrated into real-world applications to support users' daily lives. However, existing personalization approaches often fail to distinguish which components of model predictions and training data truly reflect user preferences, leading to superficial personalization alignment. In this paper, we introduce NextQuill, a novel LLM personalization alignment framework grounded in causal preference modeling. We approach personalization from a causal perspective, treating both model predictions and ground-truth data generation as outcomes influenced by user preferences, along with other factors. We define the true preference effect as the causal impact of user history (which reflects preferences) on each token prediction or data generation instance, estimated through causal intervention techniques. Building on this insight, NextQuill introduces two complementary alignment strategies: (1) aligning model-internal causal preference effects on predictions with those reflected in ground-truth data, rather than indiscriminately fitting predictions, and (2) focusing on fitting preference-bearing tokens identified via ground-truth data preference effects, rather than treating all tokens uniformly. By integrating these strategies, NextQuill shifts the alignment process toward learning from causal preference effects, facilitating more effective and personalized adaptation. Experiments across multiple personalization benchmarks demonstrate that NextQuill significantly improves personalization quality, offering a principled, causal foundation for LLM personalization. Our codes are available on https://github.com/juntaoyou/NextQuill.
Abstract（参考訳）: 個人ユーザを対象とした大規模言語モデル(LLM)のパーソナライズがますます重要になっている。しかし、既存のパーソナライゼーションアプローチでは、モデル予測とトレーニングデータのどのコンポーネントがユーザの好みを本当に反映しているかを区別できず、表面的なパーソナライズアライメントに繋がる。本稿では、因果選好モデルに基づく新しいLLMパーソナライズアライメントフレームワークであるNextQuillを紹介する。我々は因果的観点からパーソナライズにアプローチし、モデル予測と地味データ生成の両方を、他の要因とともにユーザの嗜好に影響された結果として扱う。我々は、真の嗜好効果を、各トークン予測やデータ生成インスタンスにおけるユーザ履歴(嗜好を反映する)の因果的影響として定義し、因果的介入手法を用いて推定する。この知見に基づいて,NextQuill は,(1) モデル内因果選好効果を,(1) 内因果選好効果を,不特定に適合する予測ではなく,地平データに反映した予測に整合させること,(2) 地平データ選好効果を均一に扱うことよりも,地平データ選好効果によって識別される選好に着目すること,の2つの相補的なアライメント戦略を導入する。これらの戦略を統合することで、NextQuillはアライメントプロセスを因果選好効果から学習へとシフトし、より効果的でパーソナライズされた適応を促進する。複数のパーソナライズベンチマークの実験により、NextQuillはパーソナライズ品質を大幅に改善し、LCMパーソナライズのための原則化された因果的基礎を提供することが示された。私たちのコードはhttps://github.com/juntaoyou/NextQuill.comで利用可能です。

関連論文リスト

HyPerAlign: Interpretable Personalized LLM Alignment via Hypothesis Generation [24.67727411391369]
HyPerAlignは、大規模言語モデルに対する解釈可能かつサンプル効率の仮説駆動パーソナライズアプローチである。我々は2つの異なるパーソナライズタスク、すなわち著者帰属と熟考的アライメントについて実験を行った。その結果、仮説駆動型パーソナライゼーションの方が好みに基づく微調整法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-04-29T18:01:46Z)
LoRe: Personalizing LLMs via Low-Rank Reward Modeling [47.12507639759984]
本稿では,低ランク嗜好モデルを利用してユーザ固有の報酬関数を効率的に学習し,一般化する新しいフレームワークを提案する。提案手法を複数の選好データセット上で検証し、未確認ユーザに対して優れた一般化を示し、選好予測タスクの精度を改善した。
論文参考訳（メタデータ） (2025-04-20T01:16:24Z)
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文参考訳（メタデータ） (2025-02-26T17:08:46Z)
Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。 PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文参考訳（メタデータ） (2025-01-11T22:38:41Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文参考訳（メタデータ） (2024-10-22T00:11:41Z)
ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。 ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文参考訳（メタデータ） (2024-10-21T14:02:40Z)
PAD: Personalized Alignment of LLMs at Decoding-Time [10.347782385286582]
本稿では,LLM出力を推論フェーズにおいて多様なパーソナライズされた嗜好と整合させる新しいフレームワークを提案する。パーソナライズド・アライメント・アライメント・アライメント・アライメント・アット・デコーディング・タイム(PAD)フレームワークは、テキスト生成プロセスをパーソナライズされた好みから切り離す。 PADは、既存のトレーニングベースのアライメント手法を、多様な嗜好と整合するという点で上回るだけでなく、トレーニング中に見つからない嗜好に対する顕著な一般化性も示している。
論文参考訳（メタデータ） (2024-10-05T08:00:55Z)
BAPO: Base-Anchored Preference Optimization for Overcoming Forgetting in Large Language Models Personalization [26.526171463511332]
本稿では,パーソナライズされた好み最適化が大規模言語モデル(LLM)に与える影響について検討する。 BAPOは、グローバルな知識や一般的なアライメントを最小限に抑えながら、多様なユーザの好みに効果的に適応する。
論文参考訳（メタデータ） (2024-06-30T13:30:04Z)
Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。 P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文参考訳（メタデータ） (2024-02-06T04:18:58Z)
Data-Driven Offline Decision-Making via Invariant Representation Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文参考訳（メタデータ） (2022-11-21T11:01:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。