Fugu-MT 論文翻訳(概要): Online Personalizing White-box LLMs Generation with Neural Bandits

論文の概要: Online Personalizing White-box LLMs Generation with Neural Bandits

arxiv url: http://arxiv.org/abs/2404.16115v1
Date: Wed, 24 Apr 2024 18:13:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 18:12:20.929118
Title: Online Personalizing White-box LLMs Generation with Neural Bandits
Title（参考訳）: ニューラルバンドを用いたWhite-box LLMのオンラインパーソナライズ
Authors: Zekai Chen, Weeden Daniel, Po-yu Chen, Francois Buet-Golfouse,
Abstract要約: 本研究では,ユーザフィードバックに基づくソフト命令の埋め込みを動的に最適化するために,ニューラルバンディットアルゴリズムを用いた革新的なオンライン手法を提案する。特にNeuralTSは、パーソナライズされたニュースの見出し生成を大幅に改善し、最高のROUGEスコアの62.9%を達成している。
参考スコア（独自算出の注目度）: 17.23811164142004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of personalized content generation by LLMs presents a novel challenge: how to efficiently adapt text to meet individual preferences without the unsustainable demand of creating a unique model for each user. This study introduces an innovative online method that employs neural bandit algorithms to dynamically optimize soft instruction embeddings based on user feedback, enhancing the personalization of open-ended text generation by white-box LLMs. Through rigorous experimentation on various tasks, we demonstrate significant performance improvements over baseline strategies. NeuralTS, in particular, leads to substantial enhancements in personalized news headline generation, achieving up to a 62.9% improvement in terms of best ROUGE scores and up to 2.76% increase in LLM-agent evaluation against the baseline.
Abstract（参考訳）: LLMによるパーソナライズされたコンテンツ生成の出現は、ユーザ毎にユニークなモデルを作成するという持続不可能な要求を伴わずに、個々の嗜好を満たすためにテキストを効率的に適応する方法という、新しい課題を提示している。本研究では,ユーザフィードバックに基づくソフトインストラクション埋め込みを動的に最適化するために,ニューラルバンディットアルゴリズムを用いた革新的なオンライン手法を導入し,ホワイトボックスLLMによるオープンエンドテキスト生成のパーソナライズを強化した。各種タスクの厳密な実験を通じて,ベースライン戦略よりも優れた性能を示す。特にNeuralTSは、パーソナライズされたニュースの見出し生成を大幅に改善し、最高のROUGEスコアの62.9%の改善と、ベースラインに対するLLMエージェント評価の2.76%向上を実現している。

関連論文リスト

FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文参考訳（メタデータ） (2025-02-26T17:08:46Z)
Disentangling Preference Representation and Text Generation for Efficient Individual Preference Alignment [24.419502686973495]
個人の嗜好調整のためのフレキシブルパラダイムを導入する。我々は,複数のテキスト生成タスクにまたがるアプローチを検証し,PEFTに基づく手法よりも整合性の高い品質が得られることを示す。
論文参考訳（メタデータ） (2024-12-30T09:58:31Z)
Adaptive Augmentation Policy Optimization with LLM Feedback [3.038642416291856]
データ拡張はディープラーニングパイプラインの重要なコンポーネントであり、データセットの多様性を高めてモデルの一般化を強化する。従来の拡張戦略は手動で設計した変換、分類サンプリング、あるいは自動検索ベースのアプローチに依存している。本稿では,モデル性能フィードバックに基づいて拡張ポリシーを改良するLarge Language Model (LLM)誘導拡張最適化戦略を提案する。
論文参考訳（メタデータ） (2024-10-17T11:26:10Z)
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文参考訳（メタデータ） (2024-10-10T17:00:06Z)
Self-Boosting Large Language Models with Synthetic Preference Data [97.94185115047999]
モデルアライメントのための合成選好データを活用する自己ブースティングパラダイムであるSynPOを紹介する。 4回のSynPOイテレーションの後、Llama3-8BとMistral-7Bは命令追従能力を大幅に強化した。 SynPO は様々なタスクにおける LLM の一般的な性能を改善し、よく認識された Open LLM のリーダーボード上で平均スコアが 3.2 から 5.0 に向上した。
論文参考訳（メタデータ） (2024-10-09T14:57:31Z)
Few-shot Personalization of LLMs with Mis-aligned Responses [40.0349773257245]
本稿では,大規模言語モデル(LLM)のパーソナライズのための新しいアプローチを提案する。私たちのキーとなるアイデアは、LSMを用いてプロンプトを段階的に改善することで、各ユーザに対してパーソナライズされたプロンプトのセットを学ぶことです。即時改善の反復過程において,LLMによる不整合応答の文脈を取り入れた。
論文参考訳（メタデータ） (2024-06-26T18:29:12Z)
Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback [41.88662700261036]
RAGシステムは、セマンティックな関連性だけでは生成品質の向上を保証していない場合に制限に直面している。我々は、LLMと人間の嗜好をよりよく整合させるために、コンテンツ中心のアプローチで設計された新しいRAGフレームワークであるPristis-RAGを提案する。
論文参考訳（メタデータ） (2024-06-21T08:52:11Z)
Supportiveness-based Knowledge Rewriting for Retrieval-augmented Language Modeling [65.72918416258219]
支援性に基づく知識書き換え(SKR)は、LLM生成に本質的に最適化された堅牢でプラガブルな知識書き換えである。知識支援に基づき、まず、リライターモデルのためのトレーニングデータキュレーション戦略を設計する。次に、生成したリライトを最適な支持度に調整するために、直接選好最適化(DPO)アルゴリズムを導入する。
論文参考訳（メタデータ） (2024-06-12T11:52:35Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning [8.389454219309837]
マルチモーダル最適化問題 (MMOP) は, 限られた関数評価において困難となる最適解の探索を必要とする。本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。
論文参考訳（メタデータ） (2024-04-12T05:02:49Z)
Optimization Methods for Personalizing Large Language Models through Retrieval Augmentation [23.174810143027234]
本稿では,大規模言語モデル(LLM)のパーソナライズのための検索強化アプローチについて検討する。パーソナライズされた生成を目的とした,限られた数の個人文書を大規模言語モデルに配信する検索モデルを最適化するための最初の試みを提案する。
論文参考訳（メタデータ） (2024-04-09T02:58:05Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-02T04:29:40Z)
Empowering NLG: Offline Reinforcement Learning for Informal Summarization in Online Domains [0.0]
本稿では,ユーザエクスペリエンスを最適化し,ユーザサポートエージェントの作業負荷を軽減することを目的とした,革新的な自然言語生成(NLG)アプローチを提案する。我々の主な目的は、オフラインの強化学習技術を用いて、オンライン記事や投稿の非公式な要約を生成することである。実験の結果、平均的な「様」スコアは0.09954378から0.5000152に大きく改善された。
論文参考訳（メタデータ） (2023-06-17T13:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。