Fugu-MT 論文翻訳(概要): PAD: Personalized Alignment of LLMs at Decoding-Time

論文の概要: PAD: Personalized Alignment of LLMs at Decoding-Time

arxiv url: http://arxiv.org/abs/2410.04070v5
Date: Thu, 7 Nov 2024 06:21:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 19:50:01.722521
Title: PAD: Personalized Alignment of LLMs at Decoding-Time
Title（参考訳）: PAD: 復号時のLCMのパーソナライズアライメント
Authors: Ruizhe Chen, Xiaotian Zhang, Meng Luo, Wenhao Chai, Zuozhu Liu,
Abstract要約: 本稿では,LLM出力を推論フェーズにおいて多様なパーソナライズされた嗜好と整合させる新しいフレームワークを提案する。パーソナライズド・アライメント・アライメント・アライメント・アライメント・アット・デコーディング・タイム(PAD)フレームワークは、テキスト生成プロセスをパーソナライズされた好みから切り離す。 PADは、既存のトレーニングベースのアライメント手法を、多様な嗜好と整合するという点で上回るだけでなく、トレーニング中に見つからない嗜好に対する顕著な一般化性も示している。
参考スコア（独自算出の注目度）: 10.347782385286582
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Aligning with personalized preferences, which vary significantly across cultural, educational, and political differences, poses a significant challenge due to the computational costs and data demands of traditional alignment methods. In response, this paper presents Personalized Alignment at Decoding-time (PAD), a novel framework designed to align LLM outputs with diverse personalized preferences during the inference phase, eliminating the need for additional training. By introducing a unique personalized reward modeling strategy, this framework decouples the text generation process from personalized preferences, facilitating the generation of generalizable token-level personalized rewards. The PAD algorithm leverages these rewards to guide the decoding process, dynamically tailoring the base model's predictions to personalized preferences. Extensive experimental results demonstrate that PAD not only outperforms existing training-based alignment methods in terms of aligning with diverse preferences but also shows significant generalizability to preferences unseen during training and scalability across different base models. This work advances the capability of LLMs to meet user needs in real-time applications, presenting a substantial step forward in personalized LLM alignment.
Abstract（参考訳）: 文化的、教育的、政治的に大きく異なるパーソナライズされた好みに合わせることは、従来のアライメント手法の計算コストとデータ要求のために大きな課題となる。そこで本研究では,LLM出力を推論フェーズにおいて多様なパーソナライズされた嗜好と整合させる新しいフレームワークであるPersonalized Alignment at Decoding-time (PAD)を提案する。このフレームワークは、独自のパーソナライズされた報酬モデリング戦略を導入することにより、テキスト生成プロセスをパーソナライズされた好みから切り離し、一般化可能なトークンレベルのパーソナライズされた報酬の生成を容易にする。 PADアルゴリズムはこれらの報酬を活用してデコードプロセスをガイドし、ベースモデルの予測をパーソナライズされた好みに動的に調整する。大規模な実験結果から、PADは既存のトレーニングベースのアライメント手法よりも、多様な嗜好との整合性に優れるだけでなく、トレーニング中に見つからない嗜好への顕著な一般化性や、異なるベースモデル間でのスケーラビリティも示している。この作業は、リアルタイムアプリケーションにおけるユーザニーズを満たすためのLLMの能力を向上し、パーソナライズされたLLMアライメントにおける大きな前進を示す。

関連論文リスト

PITA: Preference-Guided Inference-Time Alignment for LLM Post-Training [9.093854840532062]
PITAはLLMのトークン生成に直接好みフィードバックを統合する新しいフレームワークである。 PITAは、微調整をせずに、推論時にトークン確率を変更するための、小さな嗜好に基づくガイダンスポリシーを学習する。我々は,数学的推論や感情分類など,多種多様なタスクにまたがるPITAを評価する。
論文参考訳（メタデータ） (2025-07-26T21:46:32Z)
Personalized LLM Decoding via Contrasting Personal Preference [8.469329222500726]
本研究では,パラメータ効率のよい微細チューニング(PEFT)をユーザ固有のデータに適用した新しいデコード時間手法CoPeを提案する。私たちの中核となる考え方は、各ユーザの暗黙の報酬信号の最大化によって、特にパーソナライズのために報酬誘導復号を利用することです。実験の結果,CoPeは高い性能を示し,ROUGE-Lでは平均10.57%のパーソナライゼーションが向上した。
論文参考訳（メタデータ） (2025-06-13T09:12:44Z)
NextQuill: Causal Preference Modeling for Enhancing LLM Personalization [82.15961484963256]
因果選好モデルに基づく新しいパーソナライズフレームワークであるNextQuillを紹介する。この洞察に基づいて、NextQuillは2つの補完的なアライメント戦略を導入した。複数のパーソナライズベンチマークの実験により、NextQuillはパーソナライズ品質を大幅に改善することが示された。
論文参考訳（メタデータ） (2025-06-03T02:08:55Z)
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T08:53:02Z)
LoRe: Personalizing LLMs via Low-Rank Reward Modeling [47.12507639759984]
本稿では,低ランク嗜好モデルを利用してユーザ固有の報酬関数を効率的に学習し,一般化する新しいフレームワークを提案する。提案手法を複数の選好データセット上で検証し、未確認ユーザに対して優れた一般化を示し、選好予測タスクの精度を改善した。
論文参考訳（メタデータ） (2025-04-20T01:16:24Z)
Measuring What Makes You Unique: Difference-Aware User Modeling for Enhancing LLM Personalization [68.79814761867314]
本稿では,Large Language Models (LLM) のパーソナライゼーションを強化するために,差分認識パーソナライズ学習(DPL)を提案する。 DPLは、戦略的に代表ユーザを比較のために選択し、タスク関連の違いを抽出するための構造化標準を確立する。実世界のデータセットの実験により、DPLはLLMのパーソナライゼーションを大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-03-04T09:53:26Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-11-13T16:15:38Z)
Personalization of Large Language Models: A Survey [131.00650432814268]
大規模言語モデル(LLM)のパーソナライゼーションは、最近、広範囲のアプリケーションでますます重要になっている。パーソナライズ LLM に関する既存の研究の多くは、(a)パーソナライズされたテキスト生成、または(b)レコメンデーションシステムのようなパーソナライズに関連する下流アプリケーションに LLM を活用することに集中している。パーソナライズされたLSM使用のための分類を導入し、主要な違いと課題を要約する。
論文参考訳（メタデータ） (2024-10-29T04:01:11Z)
MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。 LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文参考訳（メタデータ） (2024-10-18T05:31:13Z)
Personalized Adaptation via In-Context Preference Learning [20.042909385219716]
Preference Pretrained Transformer (PPT) は、オンラインユーザフィードバックを用いた適応型パーソナライズのための新しいアプローチである。この結果から,大規模言語モデルにおけるスケーラブルで効率的なパーソナライズのためのコンテキスト内学習の可能性が示唆された。
論文参考訳（メタデータ） (2024-10-17T20:06:02Z)
Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文参考訳（メタデータ） (2024-10-04T17:48:29Z)
Guided Profile Generation Improves Personalization with LLMs [3.2685922749445617]
勧告、ランク付け、Eコマースプラットフォームを含む現代の商業システムでは、パーソナライズコンテキストを大型言語モデル(LLM)への入力として取り入れる傾向にある。本稿では,自然言語で個人プロファイルを生成するための汎用手法であるGPGを提案する。実験の結果,GAGはLLMのパーソナライズ能力を向上させることが示され,例えば,LLMを生の個人的コンテキストで直接供給するよりも,個人の嗜好を予測する上で37%の精度が向上することがわかった。
論文参考訳（メタデータ） (2024-09-19T21:29:56Z)
Personality Alignment of Large Language Models [26.071445846818914]
大規模言語モデル(LLM)を整列する現在の手法は、一般的に一般的な人間の価値観や振る舞いを反映することを目的としている。パーソナリティアライメントの概念を紹介する。このアプローチは、個々のユーザや近縁なグループの特定の嗜好に合うように、LSMの反応と決定を調整します。
論文参考訳（メタデータ） (2024-08-21T17:09:00Z)
Orchestrating LLMs with Different Personalizations [28.344891363780576]
本稿では,大規模言語モデル(LLM)と個人の嗜好を一致させる新しいアプローチを提案する。有用性、簡潔性、ユーモアなど、複数の次元に沿って記述された嗜好を踏まえると、ゴールは、この仕様に最もよく準拠する再訓練をせずにLLMを作成することである。 1つの特定の選好次元で訓練された専門的なLSMから始め、各トーケンレベルで出力をマージするブラックボックス法を提案する。
論文参考訳（メタデータ） (2024-07-04T22:55:02Z)
Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-01-21T10:46:23Z)
ZooPFL: Exploring Black-box Foundation Models for Personalized Federated Learning [95.64041188351393]
本稿では,限られた資源とパーソナライゼーションの両課題を解決しようと試みる。個人化フェデレート学習におけるゼロ階最適化を用いたZOOPFLという手法を提案する。計算コストの削減とパーソナライゼーションの向上を目的として,低次元およびクライアント固有の埋め込みを持つオートエンコーダを組み込む入力手術を提案する。
論文参考訳（メタデータ） (2023-10-08T12:26:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。