論文の概要: Online Personalizing White-box LLMs Generation with Neural Bandits
- arxiv url: http://arxiv.org/abs/2404.16115v1
- Date: Wed, 24 Apr 2024 18:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:12:20.929118
- Title: Online Personalizing White-box LLMs Generation with Neural Bandits
- Title(参考訳): ニューラルバンドを用いたWhite-box LLMのオンラインパーソナライズ
- Authors: Zekai Chen, Weeden Daniel, Po-yu Chen, Francois Buet-Golfouse,
- Abstract要約: 本研究では,ユーザフィードバックに基づくソフト命令の埋め込みを動的に最適化するために,ニューラルバンディットアルゴリズムを用いた革新的なオンライン手法を提案する。
特にNeuralTSは、パーソナライズされたニュースの見出し生成を大幅に改善し、最高のROUGEスコアの62.9%を達成している。
- 参考スコア(独自算出の注目度): 17.23811164142004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of personalized content generation by LLMs presents a novel challenge: how to efficiently adapt text to meet individual preferences without the unsustainable demand of creating a unique model for each user. This study introduces an innovative online method that employs neural bandit algorithms to dynamically optimize soft instruction embeddings based on user feedback, enhancing the personalization of open-ended text generation by white-box LLMs. Through rigorous experimentation on various tasks, we demonstrate significant performance improvements over baseline strategies. NeuralTS, in particular, leads to substantial enhancements in personalized news headline generation, achieving up to a 62.9% improvement in terms of best ROUGE scores and up to 2.76% increase in LLM-agent evaluation against the baseline.
- Abstract(参考訳): LLMによるパーソナライズされたコンテンツ生成の出現は、ユーザ毎にユニークなモデルを作成するという持続不可能な要求を伴わずに、個々の嗜好を満たすためにテキストを効率的に適応する方法という、新しい課題を提示している。
本研究では,ユーザフィードバックに基づくソフトインストラクション埋め込みを動的に最適化するために,ニューラルバンディットアルゴリズムを用いた革新的なオンライン手法を導入し,ホワイトボックスLLMによるオープンエンドテキスト生成のパーソナライズを強化した。
各種タスクの厳密な実験を通じて,ベースライン戦略よりも優れた性能を示す。
特にNeuralTSは、パーソナライズされたニュースの見出し生成を大幅に改善し、最高のROUGEスコアの62.9%の改善と、ベースラインに対するLLMエージェント評価の2.76%向上を実現している。
関連論文リスト
- Large Language Models As Evolution Strategies [6.873777465945062]
本研究では,大規模言語モデル (LLM) が進化的最適化アルゴリズムを実装可能であるかどうかを考察する。
我々は,最小から最多の集団集団を選別する新規なプロンプト戦略を導入する。
我々の設定により、ユーザがLLMベースの進化戦略を得ることができ、それはEvoLLM'と呼ばれ、ベースラインアルゴリズムを頑健に上回る。
論文 参考訳(メタデータ) (2024-02-28T15:02:17Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Empowering NLG: Offline Reinforcement Learning for Informal
Summarization in Online Domains [0.0]
本稿では,ユーザエクスペリエンスを最適化し,ユーザサポートエージェントの作業負荷を軽減することを目的とした,革新的な自然言語生成(NLG)アプローチを提案する。
我々の主な目的は、オフラインの強化学習技術を用いて、オンライン記事や投稿の非公式な要約を生成することである。
実験の結果、平均的な「様」スコアは0.09954378から0.5000152に大きく改善された。
論文 参考訳(メタデータ) (2023-06-17T13:00:54Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。