Fugu-MT 論文翻訳(概要): Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation

論文の概要: Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation

arxiv url: http://arxiv.org/abs/2405.00981v1
Date: Thu, 2 May 2024 03:35:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 17:54:29.188258
Title: Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation
Title（参考訳）: LLMに基づく自然言語推論抽出のためのベイズ最適化
Authors: David Eric Austin, Anton Korikov, Armin Toroghi, Scott Sanner,
Abstract要約: 大規模言語モデル(LLM)は、完全な自然言語(NL)PE対話を可能にする。ユーザの好みの発話とNL項目記述の間で自然言語推論(NLI)を利用する新しいNL-PEアルゴリズムであるPEBOLを提案する。 PEBOLは10ターンのコールドスタートNL-PE対話でMAP@10の最大131%の改善を実現している。
参考スコア（独自算出の注目度）: 18.550311424902358
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Designing preference elicitation (PE) methodologies that can quickly ascertain a user's top item preferences in a cold-start setting is a key challenge for building effective and personalized conversational recommendation (ConvRec) systems. While large language models (LLMs) constitute a novel technology that enables fully natural language (NL) PE dialogues, we hypothesize that monolithic LLM NL-PE approaches lack the multi-turn, decision-theoretic reasoning required to effectively balance the NL exploration and exploitation of user preferences towards an arbitrary item set. In contrast, traditional Bayesian optimization PE methods define theoretically optimal PE strategies, but fail to use NL item descriptions or generate NL queries, unrealistically assuming users can express preferences with direct item ratings and comparisons. To overcome the limitations of both approaches, we formulate NL-PE in a Bayesian Optimization (BO) framework that seeks to generate NL queries which actively elicit natural language feedback to reduce uncertainty over item utilities to identify the best recommendation. We demonstrate our framework in a novel NL-PE algorithm, PEBOL, which uses Natural Language Inference (NLI) between user preference utterances and NL item descriptions to maintain preference beliefs and BO strategies such as Thompson Sampling (TS) and Upper Confidence Bound (UCB) to guide LLM query generation. We numerically evaluate our methods in controlled experiments, finding that PEBOL achieves up to 131% improvement in MAP@10 after 10 turns of cold start NL-PE dialogue compared to monolithic GPT-3.5, despite relying on a much smaller 400M parameter NLI model for preference inference.
Abstract（参考訳）: コールドスタート設定でユーザのトップ項目の嗜好を迅速に確認できるPE手法の設計は、効果的でパーソナライズされた会話レコメンデーション(ConvRec)システムを構築する上で重要な課題である。大規模言語モデル (LLM) は, 完全な自然言語(NL) PE対話を可能にする新しい技術である一方, モノリシックLLM NL-PEアプローチには, NL探索とユーザ嗜好の任意の項目集合への活用を効果的に行うために必要な多ターン, 決定論的推論が欠如している, という仮説を立てる。対照的に、従来のベイズ最適化PEメソッドは理論上最適なPE戦略を定義するが、NL項目の記述やNLクエリの生成に失敗し、ユーザーが直接アイテム評価と比較で好みを表現できると仮定する。両手法の限界を克服するため,ベイズ最適化(BO)フレームワークでNL-PEを定式化し,自然言語のフィードバックを積極的に引き出すNLクエリを生成し,アイテムユーティリティに対する不確実性を低減し,最適なレコメンデーションを特定する。我々は,ユーザの嗜好発話とNL項目記述の間で自然言語推論(NLI)を用いて,好みの信念を維持し,Thompson Sampling (TS) や Up Confidence Bound (UCB) などのBO戦略を用いて LLM クエリ生成を誘導する新しい NL-PE アルゴリズム PEBOL を実証した。提案手法を制御実験で数値評価したところ, PEBOLは, より小さい400MパラメータNLIモデルに依存するにもかかわらず, 10ターンのコールドスタートNL-PE対話でMAP@10が最大131%向上することが判明した。

関連論文リスト

Revisiting Prompt Engineering: A Comprehensive Evaluation for LLM-based Personalized Recommendation [2.3650193864974978]
大規模言語モデル(LLM)は、自然言語で書かれたプロンプトを入力として取り込むことで推奨タスクを実行することができる。本稿では,他のユーザからの情報を一切使用しない単一ユーザ設定に焦点をあてる。
論文参考訳（メタデータ） (2025-07-17T20:26:00Z)
MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。 LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文参考訳（メタデータ） (2024-10-18T05:31:13Z)
ELCoRec: Enhance Language Understanding with Co-Propagation of Numerical and Categorical Features for Recommendation [38.64175351885443]
大規模言語モデルは自然言語処理(NLP)領域で栄えている。レコメンデーション指向の微調整モデルによって示された知性にもかかわらず、LLMはユーザーの行動パターンを完全に理解するのに苦労している。既存の作業は、その重要な情報を導入することなく、与えられたテキストデータに対してのみLLMを微調整するだけである。
論文参考訳（メタデータ） (2024-06-27T01:37:57Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文参考訳（メタデータ） (2024-03-08T18:57:52Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文参考訳（メタデータ） (2024-02-06T11:44:06Z)
Active Preference Inference using Language Models and Probabilistic Reasoning [13.523369679010685]
本稿では,大規模言語モデルによるユーザの嗜好の推測を支援する推論時アルゴリズムを提案する。我々のアルゴリズムは, LLM を誘導することで条件分布が定義される確率モデルを用いている。実商品を用いた簡易な対話型Webショッピング設定の結果, エントロピー低減アルゴリズムを備えたLCMは, ベースラインよりも優れていた。
論文参考訳（メタデータ） (2023-12-19T09:58:54Z)
Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
Large Language Models are Competitive Near Cold-start Recommenders for Language- and Item-based Preferences [33.81337282939615]
言語ベースの嗜好を表現するダイアログインタフェースは、嗜好入力に対して根本的に異なるモダリティを提供する。近年の大規模言語モデル(LLM)のパラダイム導入の成功に触発されて,提案手法の活用について検討した。
論文参考訳（メタデータ） (2023-07-26T14:47:15Z)
PALR: Personalization Aware LLMs for Recommendation [7.407353565043918]
PALRは、ユーザ履歴の振る舞い(クリック、購入、評価など)と大きな言語モデル(LLM)を組み合わせることで、ユーザの好むアイテムを生成することを目的としている。我々のソリューションは、様々なシーケンシャルなレコメンデーションタスクにおいて最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2023-05-12T17:21:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。