論文の概要: Aligning LLMs with Individual Preferences via Interaction
- arxiv url: http://arxiv.org/abs/2410.03642v1
- Date: Fri, 04 Oct 2024 17:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:11:34.909886
- Title: Aligning LLMs with Individual Preferences via Interaction
- Title(参考訳): 対話による個人選好を考慮したLLMのアライメント
- Authors: Shujin Wu, May Fung, Cheng Qian, Jeonghwan Kim, Dilek Hakkani-Tur, Heng Ji,
- Abstract要約: 調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
- 参考スコア(独自算出の注目度): 51.72200436159636
- License:
- Abstract: As large language models (LLMs) demonstrate increasingly advanced capabilities, aligning their behaviors with human values and preferences becomes crucial for their wide adoption. While previous research focuses on general alignment to principles such as helpfulness, harmlessness, and honesty, the need to account for individual and diverse preferences has been largely overlooked, potentially undermining customized human experiences. To address this gap, we train LLMs that can ''interact to align'', essentially cultivating the meta-skill of LLMs to implicitly infer the unspoken personalized preferences of the current user through multi-turn conversations, and then dynamically align their following behaviors and responses to these inferred preferences. Our approach involves establishing a diverse pool of 3,310 distinct user personas by initially creating seed examples, which are then expanded through iterative self-generation and filtering. Guided by distinct user personas, we leverage multi-LLM collaboration to develop a multi-turn preference dataset containing 3K+ multi-turn conversations in tree structures. Finally, we apply supervised fine-tuning and reinforcement learning to enhance LLMs using this dataset. For evaluation, we establish the ALOE (ALign With CustOmized PrEferences) benchmark, consisting of 100 carefully selected examples and well-designed metrics to measure the customized alignment performance during conversations. Experimental results demonstrate the effectiveness of our method in enabling dynamic, personalized alignment via interaction.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますます高度な能力を示すため、その振る舞いを人間の価値観や好みと整合させることが、広く採用するには不可欠である。
これまでの研究では、役に立つこと、無害さ、誠実さといった原則への一般的な整合性に焦点が当てられていたが、個人的および多様な嗜好を説明する必要性はほとんど見過ごされ、カスタマイズされた人間の体験を損なう可能性がある。
このギャップに対処するため、我々は、LLMのメタスキルを育み、マルチターン会話を通じて現在のユーザのパーソナライズされた嗜好を暗黙的に推測し、次に次の行動や反応を推論された嗜好に動的に調整する「協調する相互作用」を訓練する。
当社のアプローチでは、最初はシードサンプルを作成して3,310人の異なるユーザペルソナを多種多様なプールにすることで、反復的な自己生成とフィルタリングを通じて拡張する。
異なるユーザペルソナによってガイドされたマルチLLMコラボレーションを利用して,木構造に3K以上のマルチターン会話を含むマルチターン選好データセットを開発する。
最後に、教師付き微調整および強化学習を適用し、このデータセットを用いてLCMを強化する。
ALOE(Align With CustOmized PrEferences)ベンチマークは、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するためのよく設計されたメトリクスから構成される。
実験により,対話による動的,パーソナライズされたアライメントの実現に本手法の有効性が示された。
関連論文リスト
- PEFT-U: Parameter-Efficient Fine-Tuning for User Personalization [9.594958534074074]
ユーザパーソナライズのためのNLPモデルの構築と評価のための新しいデータセットであるPEFT-Uベンチマークを紹介する。
多様なユーザ中心タスクのコンテキストにおいて、LLMを効率よくパーソナライズし、ユーザ固有の嗜好に適合させるという課題について検討する。
論文 参考訳(メタデータ) (2024-07-25T14:36:18Z) - Orchestrating LLMs with Different Personalizations [28.344891363780576]
本稿では,大規模言語モデル(LLM)と個人の嗜好を一致させる新しいアプローチを提案する。
有用性、簡潔性、ユーモアなど、複数の次元に沿って記述された嗜好を踏まえると、ゴールは、この仕様に最もよく準拠する再訓練をせずにLLMを作成することである。
1つの特定の選好次元で訓練された専門的なLSMから始め、各トーケンレベルで出力をマージするブラックボックス法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:55:02Z) - Few-shot Personalization of LLMs with Mis-aligned Responses [40.0349773257245]
本稿では,大規模言語モデル(LLM)のパーソナライズのための新しいアプローチを提案する。
私たちのキーとなるアイデアは、LSMを用いてプロンプトを段階的に改善することで、各ユーザに対してパーソナライズされたプロンプトのセットを学ぶことです。
即時改善の反復過程において,LLMによる不整合応答の文脈を取り入れた。
論文 参考訳(メタデータ) (2024-06-26T18:29:12Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Democratizing Large Language Models via Personalized Parameter-Efficient
Fine-tuning [39.0799671550279]
大規模言語モデル(LLM)のパーソナライゼーションはますます重要になっている。
1つのPEFT Per User (OPPU) は、パーソナライズされたパラメータ効率の微調整(PEFT)モジュールを使用して、ユーザ固有の行動パターンと好みを保存する。
OPPUは、LaMPベンチマークの7つのタスクで既存のプロンプトベースのメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-06T21:03:52Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。