論文の概要: Aligning LLM Agents by Learning Latent Preference from User Edits
- arxiv url: http://arxiv.org/abs/2404.15269v1
- Date: Tue, 23 Apr 2024 17:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:03:00.239159
- Title: Aligning LLM Agents by Learning Latent Preference from User Edits
- Title(参考訳): ユーザ編集からの潜在選好学習によるLLMエージェントの調整
- Authors: Ge Gao, Alexey Taymanov, Eduardo Salinas, Paul Mineiro, Dipendra Misra,
- Abstract要約: 本研究では,エージェントの出力に対するユーザ編集に基づいて,言語エージェントの対話的学習について検討する。
本稿では,履歴編集データに基づいてユーザの潜伏傾向を推定するPreLUDEを提案する。
GPT-4シミュレートされたユーザによる評価のために,要約とメール書き込みという2つの対話型環境を導入する。
- 参考スコア(独自算出の注目度): 23.235995078727658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study interactive learning of language agents based on user edits made to the agent's output. In a typical setting such as writing assistants, the user interacts with a language agent to generate a response given a context, and may optionally edit the agent response to personalize it based on their latent preference, in addition to improving the correctness. The edit feedback is naturally generated, making it a suitable candidate for improving the agent's alignment with the user's preference, and for reducing the cost of user edits over time. We propose a learning framework, PRELUDE that infers a description of the user's latent preference based on historic edit data and using it to define a prompt policy that drives future response generation. This avoids fine-tuning the agent, which is costly, challenging to scale with the number of users, and may even degrade its performance on other tasks. Furthermore, learning descriptive preference improves interpretability, allowing the user to view and modify the learned preference. However, user preference can be complex and vary based on context, making it challenging to learn. To address this, we propose a simple yet effective algorithm named CIPHER that leverages a large language model (LLM) to infer the user preference for a given context based on user edits. In the future, CIPHER retrieves inferred preferences from the k-closest contexts in the history, and forms an aggregate preference for response generation. We introduce two interactive environments -- summarization and email writing, for evaluation using a GPT-4 simulated user. We compare with algorithms that directly retrieve user edits but do not learn descriptive preference, and algorithms that learn context-agnostic preference. On both tasks, CIPHER achieves the lowest edit distance cost and learns preferences that show significant similarity to the ground truth preferences
- Abstract(参考訳): 本研究では,エージェントの出力に対するユーザ編集に基づいて,言語エージェントの対話的学習について検討する。
アシスタントを書くなどの典型的な設定では、ユーザは言語エージェントと対話して、与えられた状況に応じて応答を生成し、オプションでエージェント応答を編集して、潜伏した好みに基づいてパーソナライズし、正確性を改善することができる。
編集フィードバックは自然に生成され、ユーザの好みに合わせてエージェントのアライメントを改善するのに適した候補となり、時間の経過とともに編集コストを削減できる。
本稿では,過去の編集データに基づいてユーザの潜在嗜好を推測し,それを用いて,今後の応答生成を推し進める迅速なポリシーを定義する学習フレームワークであるPreLUDEを提案する。
これによってエージェントの微調整が回避されるため、コストがかかり、ユーザ数に合わせてスケールが難しくなり、他のタスクのパフォーマンスが低下する可能性がある。
さらに、記述的嗜好の学習は解釈可能性を改善し、学習した嗜好の閲覧と修正を可能にする。
しかし、ユーザの好みは複雑で、コンテキストによって異なるため、学習が困難になる。
そこで本稿では,大規模な言語モデル(LLM)を利用したCIPHERというシンプルなアルゴリズムを提案する。
将来的には、CIPHERはk-closestコンテキストから推論された嗜好を検索し、応答生成の集合的嗜好を形成する。
GPT-4シミュレートされたユーザによる評価のために,要約とメール書き込みという2つの対話型環境を導入する。
ユーザ編集を直接検索するが、記述的嗜好を学習しないアルゴリズムと、文脈に依存しない選好を学習するアルゴリズムとを比較した。
両方のタスクにおいて、CIPHERは最小編集距離コストを達成し、基礎的な真実の好みと大きな類似性を示す好みを学習する。
関連論文リスト
- Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Personalized Language Modeling from Personalized Human Feedback [55.458647587228185]
個人化された人間のフィードバックから学習するタスクを紹介し、この文脈でバニラRLHFが問題となる理由を説明する。
本稿では,ユーザモデルと言語(あるいは報酬)モデルを共同で学習する必要がある一般パーソナライズ-RLHFフレームワークを提案する。
提案手法の有効性を実証するために,注釈付き好みと注釈付き情報を用いた実世界のテキスト要約データを用いて検証を行った。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Parameter-Efficient Conversational Recommender System as a Language
Processing Task [52.47087212618396]
会話レコメンデータシステム(CRS)は,自然言語会話を通じてユーザの嗜好を喚起することで,ユーザに対して関連項目を推薦することを目的としている。
先行作業では、アイテムのセマンティック情報、対話生成のための言語モデル、関連する項目のランク付けのためのレコメンデーションモジュールとして、外部知識グラフを利用することが多い。
本稿では、自然言語の項目を表現し、CRSを自然言語処理タスクとして定式化する。
論文 参考訳(メタデータ) (2024-01-25T14:07:34Z) - Interpreting User Requests in the Context of Natural Language Standing
Instructions [89.12540932734476]
我々は17のドメインにまたがる2.4K以上の対話からなる言語とプログラムのデータセットであるNLSIを開発した。
NLSIの鍵となる課題は、ある対話に適用可能なスタンディング命令のサブセットを特定することである。
論文 参考訳(メタデータ) (2023-11-16T11:19:26Z) - Factual and Personalized Recommendations using Language Models and
Reinforcement Learning [38.96462170594542]
我々はP4LM(Compelling, Precise, Personalized, Preference-relevant Language Model)を開発した。
P4LMは、アイテムの特徴とその関連性を説明しながら、ユーザにアイテムを推奨する。
我々は、精度、魅力、パーソナライゼーションを測定する共同報酬関数を開発する。
論文 参考訳(メタデータ) (2023-10-09T21:58:55Z) - Large Language Models are Competitive Near Cold-start Recommenders for
Language- and Item-based Preferences [33.81337282939615]
言語ベースの嗜好を表現するダイアログインタフェースは、嗜好入力に対して根本的に異なるモダリティを提供する。
近年の大規模言語モデル(LLM)のパラダイム導入の成功に触発されて,提案手法の活用について検討した。
論文 参考訳(メタデータ) (2023-07-26T14:47:15Z) - COLA: Improving Conversational Recommender Systems by Collaborative
Augmentation [9.99763097964222]
アイテム表現学習とユーザ嗜好モデリングの両方を改善するために,協調的拡張(COLA)手法を提案する。
すべての会話から対話型ユーザテムグラフを構築し,ユーザ認識情報によってアイテム表現を拡大する。
ユーザの嗜好モデルを改善するため,学習コーパスから類似した会話を検索し,ユーザの興味を反映した関連項目や属性を用いてユーザ表現を増強する。
論文 参考訳(メタデータ) (2022-12-15T12:37:28Z) - PePe: Personalized Post-editing Model utilizing User-generated
Post-edits [28.749742163017544]
この課題に対処するために、パーソナライズされた後編集フレームワークを導入します。
まず,ライブ機械翻訳システムからユーザの好みを記述した後編集データを収集する。
次に、APEフレームワーク上で、識別器モジュールとユーザ固有のパラメータを組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-21T06:09:58Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z) - A Neural Topical Expansion Framework for Unstructured Persona-oriented
Dialogue Generation [52.743311026230714]
Persona Exploration and Exploitation (PEE)は、事前に定義されたユーザペルソナ記述を意味論的に相関したコンテンツで拡張することができる。
PEEはペルソナ探索とペルソナ搾取という2つの主要なモジュールで構成されている。
提案手法は, 自動評価と人的評価の両面で, 最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-06T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。