論文の概要: Amulet: ReAlignment During Test Time for Personalized Preference Adaptation of LLMs
- arxiv url: http://arxiv.org/abs/2502.19148v1
- Date: Wed, 26 Feb 2025 14:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:08.921263
- Title: Amulet: ReAlignment During Test Time for Personalized Preference Adaptation of LLMs
- Title(参考訳): Amulet: LLMのパーソナライズされた選好適応のためのテスト時間中のリアライメント
- Authors: Zhaowei Zhang, Fengshuo Bai, Qizhi Chen, Chengdong Ma, Mingzhi Wang, Haoran Sun, Zilong Zheng, Yaodong Yang,
- Abstract要約: Amuletは、各トークンの復号処理を独立したオンライン学習問題として定式化する、トレーニング不要のフレームワークである。
Amuletは、異なるLLM、データセット、ユーザー好みの組み合わせで、リッチな設定で大幅なパフォーマンス改善を実現することができることを示す。
- 参考スコア(独自算出の注目度): 28.759591573106917
- License:
- Abstract: How to align large language models (LLMs) with user preferences from a static general dataset has been frequently studied. However, user preferences are usually personalized, changing, and diverse regarding culture, values, or time. This leads to the problem that the actual user preferences often do not coincide with those trained by the model developers in the practical use of LLMs. Since we cannot collect enough data and retrain for every demand, researching efficient real-time preference adaptation methods based on the backbone LLMs during test time is important. To this end, we introduce Amulet, a novel, training-free framework that formulates the decoding process of every token as a separate online learning problem with the guidance of simple user-provided prompts, thus enabling real-time optimization to satisfy users' personalized preferences. To reduce the computational cost brought by this optimization process for each token, we additionally provide a closed-form solution for each iteration step of the optimization process, thereby reducing the computational time cost to a negligible level. The detailed experimental results demonstrate that Amulet can achieve significant performance improvements in rich settings with combinations of different LLMs, datasets, and user preferences, while maintaining acceptable computational efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)と静的な汎用データセットからのユーザの好みの整合性について、よく研究されている。
しかしながら、ユーザの好みは通常、文化、価値観、時間に関してパーソナライズされ、変化し、多様である。
このことは、実際のユーザの好みが、LLMの実践的な使用においてモデル開発者が訓練したものとは一致しない、という問題につながります。
十分なデータを集めることができず、全ての需要に対して再訓練を行うことができないため、テスト期間中のバックボーンLLMに基づく効率的なリアルタイム嗜好適応手法の研究が重要である。
この目的のために,Amuletを紹介した。Amuletは,トークンの復号処理を簡単なユーザ提供プロンプトのガイダンスを用いて,個別のオンライン学習問題として定式化し,ユーザの好みをリアルタイムに最適化するフレームワークである。
各トークンに対してこの最適化プロセスによってもたらされる計算コストを削減するため、最適化プロセスの各イテレーションステップに対してクローズドフォームソリューションも提供し、計算時間コストを無視できるレベルまで削減する。
詳細な実験結果から、Amuletは計算効率を許容しつつ、異なるLLM、データセット、ユーザの好みの組み合わせで、リッチな設定で大幅なパフォーマンス向上を達成できることが示されている。
関連論文リスト
- Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。
VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。
我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文 参考訳(メタデータ) (2024-05-10T17:59:04Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Linear Speedup in Personalized Collaborative Learning [69.45124829480106]
フェデレート学習におけるパーソナライゼーションは、モデルのバイアスをトレーディングすることで、モデルの精度を向上させることができる。
ユーザの目的の最適化として、パーソナライズされた協調学習問題を定式化する。
分散の低減のためにバイアスを最適にトレードオフできる条件について検討する。
論文 参考訳(メタデータ) (2021-11-10T22:12:52Z) - Optimizing Offer Sets in Sub-Linear Time [5.027714423258537]
本稿では,各項目数のサブ線形時間内で動作するパーソナライズされたオファーセット最適化アルゴリズムを提案する。
私たちのアルゴリズムは完全にデータ駆動で、ユーザーのサンプルに依存します。
論文 参考訳(メタデータ) (2020-11-17T13:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。