Fugu-MT 論文翻訳(概要): Aligning LLM Agents by Learning Latent Preference from User Edits

論文の概要: Aligning LLM Agents by Learning Latent Preference from User Edits

arxiv url: http://arxiv.org/abs/2404.15269v1
Date: Tue, 23 Apr 2024 17:57:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 13:03:00.239159
Title: Aligning LLM Agents by Learning Latent Preference from User Edits
Title（参考訳）: ユーザ編集からの潜在選好学習によるLLMエージェントの調整
Authors: Ge Gao, Alexey Taymanov, Eduardo Salinas, Paul Mineiro, Dipendra Misra,
Abstract要約: 本研究では,エージェントの出力に対するユーザ編集に基づいて,言語エージェントの対話的学習について検討する。本稿では,履歴編集データに基づいてユーザの潜伏傾向を推定するPreLUDEを提案する。 GPT-4シミュレートされたユーザによる評価のために,要約とメール書き込みという2つの対話型環境を導入する。
参考スコア（独自算出の注目度）: 23.235995078727658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study interactive learning of language agents based on user edits made to the agent's output. In a typical setting such as writing assistants, the user interacts with a language agent to generate a response given a context, and may optionally edit the agent response to personalize it based on their latent preference, in addition to improving the correctness. The edit feedback is naturally generated, making it a suitable candidate for improving the agent's alignment with the user's preference, and for reducing the cost of user edits over time. We propose a learning framework, PRELUDE that infers a description of the user's latent preference based on historic edit data and using it to define a prompt policy that drives future response generation. This avoids fine-tuning the agent, which is costly, challenging to scale with the number of users, and may even degrade its performance on other tasks. Furthermore, learning descriptive preference improves interpretability, allowing the user to view and modify the learned preference. However, user preference can be complex and vary based on context, making it challenging to learn. To address this, we propose a simple yet effective algorithm named CIPHER that leverages a large language model (LLM) to infer the user preference for a given context based on user edits. In the future, CIPHER retrieves inferred preferences from the k-closest contexts in the history, and forms an aggregate preference for response generation. We introduce two interactive environments -- summarization and email writing, for evaluation using a GPT-4 simulated user. We compare with algorithms that directly retrieve user edits but do not learn descriptive preference, and algorithms that learn context-agnostic preference. On both tasks, CIPHER achieves the lowest edit distance cost and learns preferences that show significant similarity to the ground truth preferences
Abstract（参考訳）: 本研究では,エージェントの出力に対するユーザ編集に基づいて,言語エージェントの対話的学習について検討する。アシスタントを書くなどの典型的な設定では、ユーザは言語エージェントと対話して、与えられた状況に応じて応答を生成し、オプションでエージェント応答を編集して、潜伏した好みに基づいてパーソナライズし、正確性を改善することができる。編集フィードバックは自然に生成され、ユーザの好みに合わせてエージェントのアライメントを改善するのに適した候補となり、時間の経過とともに編集コストを削減できる。本稿では,過去の編集データに基づいてユーザの潜在嗜好を推測し,それを用いて,今後の応答生成を推し進める迅速なポリシーを定義する学習フレームワークであるPreLUDEを提案する。これによってエージェントの微調整が回避されるため、コストがかかり、ユーザ数に合わせてスケールが難しくなり、他のタスクのパフォーマンスが低下する可能性がある。さらに、記述的嗜好の学習は解釈可能性を改善し、学習した嗜好の閲覧と修正を可能にする。しかし、ユーザの好みは複雑で、コンテキストによって異なるため、学習が困難になる。そこで本稿では,大規模な言語モデル(LLM)を利用したCIPHERというシンプルなアルゴリズムを提案する。将来的には、CIPHERはk-closestコンテキストから推論された嗜好を検索し、応答生成の集合的嗜好を形成する。 GPT-4シミュレートされたユーザによる評価のために,要約とメール書き込みという2つの対話型環境を導入する。ユーザ編集を直接検索するが、記述的嗜好を学習しないアルゴリズムと、文脈に依存しない選好を学習するアルゴリズムとを比較した。両方のタスクにおいて、CIPHERは最小編集距離コストを達成し、基礎的な真実の好みと大きな類似性を示す好みを学習する。

関連論文リスト

Learning Pluralistic User Preferences through Reinforcement Learning Fine-tuned Summaries [13.187789731783095]
本稿では,各ユーザの好み,特徴,過去の会話をテキストベースで要約する新しいフレームワークを提案する。これらの要約は報酬モデルを定義し、各ユーザが評価する応答のタイプについてパーソナライズされた予測を可能にする。提案手法は,新規ユーザや多様な会話トピックに対して堅牢であることを示す。
論文参考訳（メタデータ） (2025-07-17T23:48:51Z)
Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。 PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。 LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文参考訳（メタデータ） (2025-04-19T08:16:10Z)
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文参考訳（メタデータ） (2025-02-26T17:08:46Z)
UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering [39.79275025010785]
nameは、パーソナライズのための大きな言語モデルを促進するために、ユーザ埋め込みの有効性を評価するために設計されたベンチマークである。ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
論文参考訳（メタデータ） (2025-02-26T14:34:00Z)
ULMRec: User-centric Large Language Model for Sequential Recommendation [16.494996929730927]
ユーザがカスタマイズした好みを大規模言語モデルに統合するフレームワークであるULMRecを提案する。 2つの公開データセットに対する大規模な実験は、ULMRecが既存の手法を大幅に上回っていることを示している。
論文参考訳（メタデータ） (2024-12-07T05:37:00Z)
Unveiling User Preferences: A Knowledge Graph and LLM-Driven Approach for Conversational Recommendation [55.5687800992432]
本稿では,Large Language Models (LLMs) とKGs (KGs) を相乗化するプラグイン・アンド・プレイフレームワークを提案する。これにより、LLMはKGエンティティを簡潔な自然言語記述に変換することができ、ドメイン固有の知識を理解できるようになる。
論文参考訳（メタデータ） (2024-11-16T11:47:21Z)
Optimizing Data Delivery: Insights from User Preferences on Visuals, Tables, and Text [59.68239795065175]
ユーザが質問を提示するユーザスタディを実施し、何を見たいのかを尋ねます。ユーザの個人的特性が、彼らが好むデータ出力に影響を与えることを確認するために、このデータを使用します。
論文参考訳（メタデータ） (2024-11-12T00:24:31Z)
Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文参考訳（メタデータ） (2024-10-04T17:48:29Z)
PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文参考訳（メタデータ） (2024-09-30T13:55:42Z)
Reinforced Prompt Personalization for Recommendation with Large Language Models [24.360796133889156]
本稿では,個々のユーザに対して個別のプロンプトをパーソナライズすることを目的とした,インスタンスワイドプロンプトの概念を紹介する。効率と品質を向上させるため、RPPは単語ごとの単語を検索するのではなく、文レベルでプロンプトをパーソナライズする。
論文参考訳（メタデータ） (2024-07-24T09:24:49Z)
Doing Personal LAPS: LLM-Augmented Dialogue Construction for Personalized Multi-Session Conversational Search [9.243535345193711]
提案手法は,大規模言語モデルを用いて,個人化された対話を生成するために,一人の人間労働者を誘導する。 LAPSは大規模、人書き、マルチセッション、マルチドメインの会話を収集できる。その結果,抽出された嗜好を用いて明示的に生成した応答は,ユーザの実際の嗜好と一致していることがわかった。
論文参考訳（メタデータ） (2024-05-06T13:53:03Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
User-LLM: Efficient LLM Contextualization with User Embeddings [23.226164112909643]
User-LLMは、ユーザ埋め込みを利用して、大きな言語モデルとユーザ履歴の相互作用を直接コンテキスト化する新しいフレームワークである。提案手法では,ユーザタイムラインを直接埋め込みとして表現することで,最大78.1倍の高速化を実現している。
論文参考訳（メタデータ） (2024-02-21T08:03:27Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Personalized Language Modeling from Personalized Human Feedback [49.344833339240566]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、人間の好みに合わせて大きな言語モデルを微調整するために一般的に用いられる。本研究では,パーソナライズされた言語モデルを構築する手法を開発することにより,この問題に対処することを目的とする。
論文参考訳（メタデータ） (2024-02-06T04:18:58Z)
Interpreting User Requests in the Context of Natural Language Standing Instructions [89.12540932734476]
我々は17のドメインにまたがる2.4K以上の対話からなる言語とプログラムのデータセットであるNLSIを開発した。 NLSIの鍵となる課題は、ある対話に適用可能なスタンディング命令のサブセットを特定することである。
論文参考訳（メタデータ） (2023-11-16T11:19:26Z)
Eliciting Human Preferences with Language Models [56.68637202313052]
言語モデル(LM)は、ラベル付き例や自然言語のプロンプトを使用してターゲットタスクを実行するように指示することができる。タスク仕様プロセスのガイドには*LM自身を使うことを提案します。我々は、メール検証、コンテンツレコメンデーション、道徳的推論の3つの領域でGATEを研究している。
論文参考訳（メタデータ） (2023-10-17T21:11:21Z)
Factual and Personalized Recommendations using Language Models and Reinforcement Learning [38.96462170594542]
我々はP4LM(Compelling, Precise, Personalized, Preference-relevant Language Model)を開発した。 P4LMは、アイテムの特徴とその関連性を説明しながら、ユーザにアイテムを推奨する。我々は、精度、魅力、パーソナライゼーションを測定する共同報酬関数を開発する。
論文参考訳（メタデータ） (2023-10-09T21:58:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。