論文の概要: Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation
- arxiv url: http://arxiv.org/abs/2405.00981v2
- Date: Tue, 20 Aug 2024 03:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 19:59:41.054005
- Title: Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation
- Title(参考訳): LLMに基づく自然言語推論抽出のためのベイズ最適化
- Authors: David Eric Austin, Anton Korikov, Armin Toroghi, Scott Sanner,
- Abstract要約: 大規模言語モデル(LLM)は、完全な自然言語(NL)PE対話を可能にする。
ユーザの好みの発話とNL項目記述の間で自然言語推論(NLI)を利用する新しいNL-PEアルゴリズムであるPEBOLを提案する。
PEBOLは最大0.27のMRR@10を達成できるのに対し、最高のモノリシックLCMベースラインのMRR@10は0.17のMRR@10を達成できる。
- 参考スコア(独自算出の注目度): 18.550311424902358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing preference elicitation (PE) methodologies that can quickly ascertain a user's top item preferences in a cold-start setting is a key challenge for building effective and personalized conversational recommendation (ConvRec) systems. While large language models (LLMs) enable fully natural language (NL) PE dialogues, we hypothesize that monolithic LLM NL-PE approaches lack the multi-turn, decision-theoretic reasoning required to effectively balance the exploration and exploitation of user preferences towards an arbitrary item set. In contrast, traditional Bayesian optimization PE methods define theoretically optimal PE strategies, but cannot generate arbitrary NL queries or reason over content in NL item descriptions -- requiring users to express preferences via ratings or comparisons of unfamiliar items. To overcome the limitations of both approaches, we formulate NL-PE in a Bayesian Optimization (BO) framework that seeks to actively elicit NL feedback to identify the best recommendation. Key challenges in generalizing BO to deal with natural language feedback include determining: (a) how to leverage LLMs to model the likelihood of NL preference feedback as a function of item utilities, and (b) how to design an acquisition function for NL BO that can elicit preferences in the infinite space of language. We demonstrate our framework in a novel NL-PE algorithm, PEBOL, which uses: 1) Natural Language Inference (NLI) between user preference utterances and NL item descriptions to maintain Bayesian preference beliefs, and 2) BO strategies such as Thompson Sampling (TS) and Upper Confidence Bound (UCB) to steer LLM query generation. We numerically evaluate our methods in controlled simulations, finding that after 10 turns of dialogue, PEBOL can achieve an MRR@10 of up to 0.27 compared to the best monolithic LLM baseline's MRR@10 of 0.17, despite relying on earlier and smaller LLMs.
- Abstract(参考訳): コールドスタート設定でユーザのトップ項目の嗜好を迅速に確認できるPE手法の設計は、効果的でパーソナライズされた会話レコメンデーション(ConvRec)システムを構築する上で重要な課題である。
大規模言語モデル (LLM) は, 完全な自然言語(NL) PE対話を可能にするが, 任意の項目に対するユーザの嗜好の探索と活用を効果的に行うために, モノリシックLLM NL-PEアプローチにはマルチターン, 決定論的推論が欠如していると仮定する。
対照的に、従来のベイズ最適化PEメソッドは理論上最適なPE戦略を定義するが、NL項目記述のコンテンツよりも任意のNLクエリや理由を生成することはできない。
両手法の限界を克服するため,ベイズ最適化(BO)フレームワークでNL-PEを定式化し,NLフィードバックを積極的に活用し,最適な推奨事項を特定する。
自然言語のフィードバックを扱うためのBOの一般化における主な課題は、以下のとおりである。
(a)品物事業の機能としてのNL選好フィードバックの可能性をモデル化するためのLCMの活用方法、及び
(b)無限の言語空間における嗜好を引き出すことができるNL BOの取得関数を設計する方法。
我々は,新しいNL-PEアルゴリズム PEBOL で本フレームワークを実証する。
1) ベイズ的嗜好の信念を維持するために,ユーザの嗜好発話とNL項目記述との間の自然言語推論(NLI)
2)トンプソンサンプリング (TS) やアッパー信頼境界 (UCB) などのBO戦略を用いてLCMクエリ生成を行う。
制御されたシミュレーションにおいて, PEBOLは10回対話した後, 最良モノリシックなLLMベースラインであるMRR@10の0.17に比べて最大0.27のMRR@10を達成できることがわかった。
関連論文リスト
- Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。
ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-03-08T18:57:52Z) - Optimizing Language Models for Human Preferences is a Causal Inference Problem [41.59906798328058]
直接結果データセットからの人間の嗜好に対する言語モデル最適化について検討する。
まず,言語モデルの最適化を因果問題と見なして,モデルがテキストと結果の関係を正しく学習することを保証する。
我々はCPOを2倍の頑健なCPOで拡張し、従属目的の分散を低減し、バイアスに対する確実な強い保証を維持します。
論文 参考訳(メタデータ) (2024-02-22T21:36:07Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Align on the Fly: Adapting Chatbot Behavior to Established Norms [47.34022081652952]
本稿では,リアルタイムアライメントであるオン・ザ・フライ・パラメータ最適化(OPO)手法を提案する。
法的・道徳的な領域から人手による注釈付き質問と自動生成質問の両方に対する実験結果から,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2023-12-26T06:51:09Z) - Large Language Models are Competitive Near Cold-start Recommenders for
Language- and Item-based Preferences [33.81337282939615]
言語ベースの嗜好を表現するダイアログインタフェースは、嗜好入力に対して根本的に異なるモダリティを提供する。
近年の大規模言語モデル(LLM)のパラダイム導入の成功に触発されて,提案手法の活用について検討した。
論文 参考訳(メタデータ) (2023-07-26T14:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。