論文の概要: Jump Starting Bandits with LLM-Generated Prior Knowledge
- arxiv url: http://arxiv.org/abs/2406.19317v2
- Date: Tue, 29 Oct 2024 02:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:38:16.538591
- Title: Jump Starting Bandits with LLM-Generated Prior Knowledge
- Title(参考訳): LLM生成した事前知識によるジャンプ開始帯域
- Authors: Parand A. Alamdari, Yanshuai Cao, Kevin H. Wilson,
- Abstract要約: 大規模言語モデルは、オンライン学習の後悔を減らすために、文脈的マルチアームバンディットを飛躍的に開始できることを示す。
そこで本稿では,LLMに対して,バンドイットに近似した人選好の事前学習データセットを作成するように促すことにより,コンテキスト的帯域幅を求めるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.344012058238259
- License:
- Abstract: We present substantial evidence demonstrating the benefits of integrating Large Language Models (LLMs) with a Contextual Multi-Armed Bandit framework. Contextual bandits have been widely used in recommendation systems to generate personalized suggestions based on user-specific contexts. We show that LLMs, pre-trained on extensive corpora rich in human knowledge and preferences, can simulate human behaviours well enough to jump-start contextual multi-armed bandits to reduce online learning regret. We propose an initialization algorithm for contextual bandits by prompting LLMs to produce a pre-training dataset of approximate human preferences for the bandit. This significantly reduces online learning regret and data-gathering costs for training such models. Our approach is validated empirically through two sets of experiments with different bandit setups: one which utilizes LLMs to serve as an oracle and a real-world experiment utilizing data from a conjoint survey experiment.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) とContextual Multi-Armed Bandit フレームワークの統合によるメリットを実証する重要な証拠を示す。
コンテキストブレイディットは、ユーザ固有のコンテキストに基づいてパーソナライズされた提案を生成するレコメンデーションシステムで広く使用されている。
人的知識や嗜好に富んだ広範囲なコーパスで事前学習されたLCMは、オンライン学習の後悔を和らげるために、文脈的マルチ武器の盗賊を跳躍させるのに十分な人間の振る舞いをシミュレートできることを示す。
そこで本稿では,LLMに対して,バンドイットに近似した人選好の事前学習データセットを作成するように促すことにより,コンテキスト的バンドイットの初期化アルゴリズムを提案する。
これにより、オンライン学習の後悔や、そのようなモデルのトレーニングに要するデータ収集コストが大幅に削減される。
提案手法は,LLMを用いてオラクルとして機能する実験と,コンジョイントサーベイ実験のデータを利用した実世界の実験の2つの実験により実証的に検証された。
関連論文リスト
- Conversational Dueling Bandits in Generalized Linear Models [45.99797764214125]
本稿では,相対的なフィードバックに基づく会話を対話レコメンデーションシステムに導入する。
本稿では,ConDuelと呼ばれる新しい対話型デュエル帯域幅アルゴリズムを提案する。
また,理論的および実験的保証により,アルゴリズムをマルチノミアルロジットバンディットに拡張する可能性を実証した。
論文 参考訳(メタデータ) (2024-07-26T03:43:10Z) - Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。
我々はtextbfUntextbflearning (SPUL) のための textbfSoft textbfPrompting フレームワークを提案する。
本研究では,提案手法の厳密な評価を行い,SPULが実用性と忘れとのトレードオフを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2024-06-17T19:11:40Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - LLMs-augmented Contextual Bandit [7.578368459974475]
本稿では,大規模言語モデル (LLM) と文脈的バンディットフレームワークとの新たな統合を提案する。
合成データセットに関する予備的な結果は、このアプローチの可能性を示している。
論文 参考訳(メタデータ) (2023-11-03T23:12:57Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Evaluating Online Bandit Exploration In Large-Scale Recommender System [0.7981257687111937]
バンド学習は、リコメンデーターシステムにとって、ますますポピュラーなデザイン選択である。
1つの大きなボトルネックは、公正さとデータリークのない帯域幅アルゴリズムの有効性をテストする方法である。
論文 参考訳(メタデータ) (2023-04-05T16:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。