Fugu-MT 論文翻訳(概要): Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation

論文の概要: Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation

arxiv url: http://arxiv.org/abs/2405.00981v2
Date: Tue, 20 Aug 2024 03:15:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 19:59:41.054005
Title: Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation
Title（参考訳）: LLMに基づく自然言語推論抽出のためのベイズ最適化
Authors: David Eric Austin, Anton Korikov, Armin Toroghi, Scott Sanner,
Abstract要約: 大規模言語モデル(LLM)は、完全な自然言語(NL)PE対話を可能にする。ユーザの好みの発話とNL項目記述の間で自然言語推論(NLI)を利用する新しいNL-PEアルゴリズムであるPEBOLを提案する。 PEBOLは最大0.27のMRR@10を達成できるのに対し、最高のモノリシックLCMベースラインのMRR@10は0.17のMRR@10を達成できる。
参考スコア（独自算出の注目度）: 18.550311424902358
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Designing preference elicitation (PE) methodologies that can quickly ascertain a user's top item preferences in a cold-start setting is a key challenge for building effective and personalized conversational recommendation (ConvRec) systems. While large language models (LLMs) enable fully natural language (NL) PE dialogues, we hypothesize that monolithic LLM NL-PE approaches lack the multi-turn, decision-theoretic reasoning required to effectively balance the exploration and exploitation of user preferences towards an arbitrary item set. In contrast, traditional Bayesian optimization PE methods define theoretically optimal PE strategies, but cannot generate arbitrary NL queries or reason over content in NL item descriptions -- requiring users to express preferences via ratings or comparisons of unfamiliar items. To overcome the limitations of both approaches, we formulate NL-PE in a Bayesian Optimization (BO) framework that seeks to actively elicit NL feedback to identify the best recommendation. Key challenges in generalizing BO to deal with natural language feedback include determining: (a) how to leverage LLMs to model the likelihood of NL preference feedback as a function of item utilities, and (b) how to design an acquisition function for NL BO that can elicit preferences in the infinite space of language. We demonstrate our framework in a novel NL-PE algorithm, PEBOL, which uses: 1) Natural Language Inference (NLI) between user preference utterances and NL item descriptions to maintain Bayesian preference beliefs, and 2) BO strategies such as Thompson Sampling (TS) and Upper Confidence Bound (UCB) to steer LLM query generation. We numerically evaluate our methods in controlled simulations, finding that after 10 turns of dialogue, PEBOL can achieve an MRR@10 of up to 0.27 compared to the best monolithic LLM baseline's MRR@10 of 0.17, despite relying on earlier and smaller LLMs.
Abstract（参考訳）: コールドスタート設定でユーザのトップ項目の嗜好を迅速に確認できるPE手法の設計は、効果的でパーソナライズされた会話レコメンデーション(ConvRec)システムを構築する上で重要な課題である。大規模言語モデル (LLM) は, 完全な自然言語(NL) PE対話を可能にするが, 任意の項目に対するユーザの嗜好の探索と活用を効果的に行うために, モノリシックLLM NL-PEアプローチにはマルチターン, 決定論的推論が欠如していると仮定する。対照的に、従来のベイズ最適化PEメソッドは理論上最適なPE戦略を定義するが、NL項目記述のコンテンツよりも任意のNLクエリや理由を生成することはできない。両手法の限界を克服するため,ベイズ最適化(BO)フレームワークでNL-PEを定式化し,NLフィードバックを積極的に活用し,最適な推奨事項を特定する。自然言語のフィードバックを扱うためのBOの一般化における主な課題は、以下のとおりである。 (a)品物事業の機能としてのNL選好フィードバックの可能性をモデル化するためのLCMの活用方法、及び (b)無限の言語空間における嗜好を引き出すことができるNL BOの取得関数を設計する方法。我々は,新しいNL-PEアルゴリズム PEBOL で本フレームワークを実証する。 1) ベイズ的嗜好の信念を維持するために,ユーザの嗜好発話とNL項目記述との間の自然言語推論(NLI) 2)トンプソンサンプリング (TS) やアッパー信頼境界 (UCB) などのBO戦略を用いてLCMクエリ生成を行う。制御されたシミュレーションにおいて, PEBOLは10回対話した後, 最良モノリシックなLLMベースラインであるMRR@10の0.17に比べて最大0.27のMRR@10を達成できることがわかった。

関連論文リスト

MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。 LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文参考訳（メタデータ） (2024-10-18T05:31:13Z)
ELCoRec: Enhance Language Understanding with Co-Propagation of Numerical and Categorical Features for Recommendation [38.64175351885443]
大規模言語モデルは自然言語処理(NLP)領域で栄えている。レコメンデーション指向の微調整モデルによって示された知性にもかかわらず、LLMはユーザーの行動パターンを完全に理解するのに苦労している。既存の作業は、その重要な情報を導入することなく、与えられたテキストデータに対してのみLLMを微調整するだけである。
論文参考訳（メタデータ） (2024-06-27T01:37:57Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文参考訳（メタデータ） (2024-03-08T18:57:52Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文参考訳（メタデータ） (2024-02-06T11:44:06Z)
Active Preference Inference using Language Models and Probabilistic Reasoning [13.523369679010685]
本稿では,大規模言語モデルによるユーザの嗜好の推測を支援する推論時アルゴリズムを提案する。我々のアルゴリズムは, LLM を誘導することで条件分布が定義される確率モデルを用いている。実商品を用いた簡易な対話型Webショッピング設定の結果, エントロピー低減アルゴリズムを備えたLCMは, ベースラインよりも優れていた。
論文参考訳（メタデータ） (2023-12-19T09:58:54Z)
Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
Large Language Models are Competitive Near Cold-start Recommenders for Language- and Item-based Preferences [33.81337282939615]
言語ベースの嗜好を表現するダイアログインタフェースは、嗜好入力に対して根本的に異なるモダリティを提供する。近年の大規模言語モデル(LLM)のパラダイム導入の成功に触発されて,提案手法の活用について検討した。
論文参考訳（メタデータ） (2023-07-26T14:47:15Z)
PALR: Personalization Aware LLMs for Recommendation [7.407353565043918]
PALRは、ユーザ履歴の振る舞い(クリック、購入、評価など)と大きな言語モデル(LLM)を組み合わせることで、ユーザの好むアイテムを生成することを目的としている。我々のソリューションは、様々なシーケンシャルなレコメンデーションタスクにおいて最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2023-05-12T17:21:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。