論文の概要: Jump Start or False Start? A Theoretical and Empirical Evaluation of LLM-initialized Bandits
- arxiv url: http://arxiv.org/abs/2604.02527v1
- Date: Thu, 02 Apr 2026 21:27:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.211531
- Title: Jump Start or False Start? A Theoretical and Empirical Evaluation of LLM-initialized Bandits
- Title(参考訳): ジャンプスタートか偽スタートか? LLM初期バンドの理論的および実証的評価
- Authors: Adam Bayley, Xiaodan Zhu, Raquel Aoki, Yanshuai Cao, Kevin H. Wilson,
- Abstract要約: 温暖化は依然として30%の汚職に有効であり、40%の優位性を失い、50%以上のパフォーマンスを低下させます。
我々は,ランダムなラベルノイズと系統的な誤りが,バンドイットを後悔させる前の誤りに与える影響を分解する理論解析を開発した。
- 参考スコア(独自算出の注目度): 18.22679814321862
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The recent advancement of Large Language Models (LLMs) offers new opportunities to generate user preference data to warm-start bandits. Recent studies on contextual bandits with LLM initialization (CBLI) have shown that these synthetic priors can significantly lower early regret. However, these findings assume that LLM-generated choices are reasonably aligned with actual user preferences. In this paper, we systematically examine how LLM-generated preferences perform when random and label-flipping noise is injected into the synthetic training data. For aligned domains, we find that warm-starting remains effective up to 30% corruption, loses its advantage around 40%, and degrades performance beyond 50%. When there is systematic misalignment, even without added noise, LLM-generated priors can lead to higher regret than a cold-start bandit. To explain these behaviors, we develop a theoretical analysis that decomposes the effect of random label noise and systematic misalignment on the prior error driving the bandit's regret, and derive a sufficient condition under which LLM-based warm starts are provably better than a cold-start bandit. We validate these results across multiple conjoint datasets and LLMs, showing that estimated alignment reliably tracks when warm-starting improves or degrades recommendation quality.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) は,帯域幅を温めるためにユーザの好みデータを生成する新たな機会を提供する。
LLM初期化(CBLI)を伴う文脈的包帯に関する最近の研究は、これらの合成前駆体が早期の後悔を著しく減少させることを示した。
しかし, これらの結果は, LLM 生成した選択は実際のユーザの好みと合理的に一致していると考えられる。
本稿では,合成学習データにランダムおよびラベルフリップノイズが注入された場合,LLM生成の嗜好がどのように機能するかを系統的に検討する。
整合性のあるドメインでは、ウォームスタートは依然として30%の汚職に有効であり、40%のアドバンテージを失い、50%以上のパフォーマンスを低下させる。
系統的な不整合がある場合、付加ノイズがなくても、LCM生成の前兆は、コールドスタートのバンディットよりも高い後悔を引き起こす可能性がある。
これらの振る舞いを説明するために,ランダムなラベルノイズと系統的な誤りが,バンドイットの後悔を駆動する事前エラーに与える影響を分解する理論解析を開発し,LDMベースのウォームスタートがコールドスタートバンディットよりも確実によい条件を導出する。
これらの結果は,複数のコンジョイントデータセットとLCMにまたがって検証され,推定されたアライメントが推奨品質を向上あるいは劣化させるときに確実に追跡されることが示された。
関連論文リスト
- Improving LLM-based Recommendation with Self-Hard Negatives from Intermediate Layers [80.55429742713623]
ILRecはLLMベースのレコメンデーションシステムのための新しい好みの微調整フレームワークである。
負の信号に対してトークンレベルの報酬を割り当てるための軽量な協調フィルタリングモデルを提案する。
3つのデータセットの実験は、LLMベースのレコメンデータシステムの性能向上におけるILRecの有効性を示している。
論文 参考訳(メタデータ) (2026-02-19T14:37:43Z) - Enhancing Zero-Shot Time Series Forecasting in Off-the-Shelf LLMs via Noise Injection [18.267727687739853]
大言語モデル(LLM)はゼロショット時系列(TS)予測器として有効であることを示した。
鍵となる課題は、TSデータを LLM の事前訓練された知識と一致したテキスト表現にトークン化することである。
LLMの事前学習スコープを利用した2つの新しいTSデータセットを導入し、改良された性能を継続的に観察する。
論文 参考訳(メタデータ) (2025-12-23T08:02:33Z) - Revisiting LLMs as Zero-Shot Time-Series Forecasters: Small Noise Can Break Large Models [32.30528039193554]
大規模言語モデル(LLM)は、ドメイン固有のトレーニングなしで、様々なタスクにまたがる顕著なパフォーマンスを示している。
近年の研究では、LLMは予測に固有の効果を欠いていることが示唆されている。
実験の結果,LLMベースのゼロショット予測器はノイズに敏感なため,高い精度を達成するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-05-31T08:24:01Z) - Reverse Engineering Human Preferences with Reinforcement Learning [15.70441204657966]
大規模言語モデル(LLM)は、人間の嗜好を予測するために訓練された他のLLMによって日常的に評価される。
これまでの研究では、候補LLMが生成した回答をポストホックで編集して、審査員LLMが割り当てたスコアを最大化できることが示されている。
我々は、異なるアプローチを採用し、判定LLMによって提供される信号を、逆向きにモデルをチューニングする報酬として利用する。
論文 参考訳(メタデータ) (2025-05-21T17:48:16Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Are LLM-based Recommenders Already the Best? Simple Scaled Cross-entropy Unleashes the Potential of Traditional Sequential Recommenders [31.116716790604116]
大規模言語モデル(LLM)はレコメンデーションコミュニティで注目を集めている。
一部の研究では、LLMが完全なソフトマックスでクロスエントロピー(CE)の損失によって微調整された場合、シーケンシャルなレコメンデーションで最先端のパフォーマンスを達成することが観察されている。
本研究は,クロスエントロピー損失の優越性を理論的に正当化するものである。
論文 参考訳(メタデータ) (2024-08-26T12:52:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。