論文の概要: Reproducibility Study of Large Language Model Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2511.18891v1
- Date: Mon, 24 Nov 2025 08:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.119003
- Title: Reproducibility Study of Large Language Model Bayesian Optimization
- Title(参考訳): 大規模言語モデルベイズ最適化の再現性に関する研究
- Authors: Adam Rychert, Gasper Spagnolo, Evgenii Posashkov,
- Abstract要約: 大規模言語モデルを代理語として使用するLLAMBOフレームワークを再検討する。
GPT-3.5を全テキストエンコーディングコンポーネントで使用されるオープンウェイトなLlama 3.1 70Bモデルに置き換える。
本結果はLLAMBOの主な主張を裏付けるものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this reproducibility study, we revisit the LLAMBO framework of Daxberger et al. (2024), a prompting-based Bayesian optimization (BO) method that uses large language models as discriminative surrogates and acquisition optimizers via text-only interactions. We replicate the core Bayesmark and HPOBench experiments under the original evaluation protocol, but replace GPT-3.5 with the open-weight Llama 3.1 70B model used for all text encoding components. Our results broadly confirm the main claims of LLAMBO. Contextual warm starting via textual problem and hyperparameter descriptions substantially improves early regret behaviour and reduces variance across runs. LLAMBO's discriminative surrogate is weaker than GP or SMAC as a pure single task regressor, yet benefits from cross task semantic priors induced by the language model. Ablations that remove textual context markedly degrade predictive accuracy and calibration, while the LLAMBO candidate sampler consistently generates higher quality and more diverse proposals than TPE or random sampling. Experiments with smaller backbones (Gemma 27B, Llama 3.1 8B) yield unstable or invalid predictions, suggesting insufficient capacity for reliable surrogate behaviour. Overall, our study shows that the LLAMBO architecture is robust to changing the language model backbone and remains effective when instantiated with Llama 3.1 70B.
- Abstract(参考訳): 本研究では,Daxberger et al (2024) の LLAMBO フレームワークを再検討し,大規模言語モデルをテキストのみのインタラクションによる識別的サロゲートおよび取得最適化として利用する,プロンプトベースベイズ最適化 (BO) 手法を提案する。
我々はベイズマークとHPOBenchのコア実験を元の評価プロトコルで再現するが、GPT-3.5を全テキストエンコーディングコンポーネントで使用されるオープンウェイトなLlama 3.1 70Bモデルに置き換える。
本結果はLLAMBOの主な主張を広く裏付けるものである。
テキスト問題とハイパーパラメータ記述によるコンテキストウォームスタートは、初期の後悔行動を大幅に改善し、実行時の分散を低減する。
LLAMBOの識別的サロゲートは、純粋な単一タスク回帰器としてGPやSMACよりも弱いが、言語モデルによって誘導されるクロスタスクセマンティクスの利点がある。
テキストコンテキストを削除するアブレーションは予測精度とキャリブレーションを著しく低下させる一方、LLAMBO候補サンプリングはTPEやランダムサンプリングよりも高品質で多様な提案を生成する。
小さいバックボーン(Gemma 27B、Llama 3.1 8B)での実験では不安定または無効な予測が得られ、信頼できるサロゲート動作の能力が不足していることが示唆された。
全体として,LLAMBOアーキテクチャは言語モデルのバックボーンの変更に対して堅牢であり,Llama 3.1 70Bでインスタンス化しても有効であることを示す。
関連論文リスト
- Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future [38.1810626252963]
自己回帰言語モデル(Self-Rewarding Language Models)は、LLM-as-a-Judgeプロンプトを通じて、大きな言語モデル(LLM)が応答を生成し、独自の出力を評価するアーキテクチャを提案する。
本研究では,過去,現在,将来のモデル世代を戦略的に調整し,学習信号を持続するテキストbf自己回帰言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-08T05:25:54Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - A Practice of Post-Training on Llama-3 70B with Optimal Selection of Additional Language Mixture Ratio [1.7082025044221352]
大規模言語モデル(LLM)は、慣れていない言語スキルを得たり、新しいドメインに適応するために、継続事前訓練(CPT)を必要とすることが多い。
本研究では, 言語混合比 (ALMR) と学習率 (LR) の最適相関を, 最適実験装置を直接示す8Bサイズで検討する。
LLMの最終70Bバージョンを実生活チャットシステムに展開し、満足な性能を得る。
論文 参考訳(メタデータ) (2024-09-10T16:26:43Z) - Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。
高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。
以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T11:44:06Z) - DE$^3$-BERT: Distance-Enhanced Early Exiting for BERT based on
Prototypical Networks [43.967626080432275]
BERT(DE$3$-BERT)のための新しい遠隔拡張早期実行フレームワークを提案する。
我々は,古典的エントロピーに基づく地域情報と距離に基づくグローバル情報とを補完するハイブリッドエグジット戦略を実装した。
GLUEベンチマークの実験では、De$3$-BERTが最先端モデルより一貫して優れていることが示されている。
論文 参考訳(メタデータ) (2024-02-03T15:51:17Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。