論文の概要: Reproducibility Study of Large Language Model Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2511.18891v1
- Date: Mon, 24 Nov 2025 08:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.119003
- Title: Reproducibility Study of Large Language Model Bayesian Optimization
- Title(参考訳): 大規模言語モデルベイズ最適化の再現性に関する研究
- Authors: Adam Rychert, Gasper Spagnolo, Evgenii Posashkov,
- Abstract要約: 大規模言語モデルを代理語として使用するLLAMBOフレームワークを再検討する。
GPT-3.5を全テキストエンコーディングコンポーネントで使用されるオープンウェイトなLlama 3.1 70Bモデルに置き換える。
本結果はLLAMBOの主な主張を裏付けるものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this reproducibility study, we revisit the LLAMBO framework of Daxberger et al. (2024), a prompting-based Bayesian optimization (BO) method that uses large language models as discriminative surrogates and acquisition optimizers via text-only interactions. We replicate the core Bayesmark and HPOBench experiments under the original evaluation protocol, but replace GPT-3.5 with the open-weight Llama 3.1 70B model used for all text encoding components. Our results broadly confirm the main claims of LLAMBO. Contextual warm starting via textual problem and hyperparameter descriptions substantially improves early regret behaviour and reduces variance across runs. LLAMBO's discriminative surrogate is weaker than GP or SMAC as a pure single task regressor, yet benefits from cross task semantic priors induced by the language model. Ablations that remove textual context markedly degrade predictive accuracy and calibration, while the LLAMBO candidate sampler consistently generates higher quality and more diverse proposals than TPE or random sampling. Experiments with smaller backbones (Gemma 27B, Llama 3.1 8B) yield unstable or invalid predictions, suggesting insufficient capacity for reliable surrogate behaviour. Overall, our study shows that the LLAMBO architecture is robust to changing the language model backbone and remains effective when instantiated with Llama 3.1 70B.
- Abstract(参考訳): 本研究では,Daxberger et al (2024) の LLAMBO フレームワークを再検討し,大規模言語モデルをテキストのみのインタラクションによる識別的サロゲートおよび取得最適化として利用する,プロンプトベースベイズ最適化 (BO) 手法を提案する。
我々はベイズマークとHPOBenchのコア実験を元の評価プロトコルで再現するが、GPT-3.5を全テキストエンコーディングコンポーネントで使用されるオープンウェイトなLlama 3.1 70Bモデルに置き換える。
本結果はLLAMBOの主な主張を広く裏付けるものである。
テキスト問題とハイパーパラメータ記述によるコンテキストウォームスタートは、初期の後悔行動を大幅に改善し、実行時の分散を低減する。
LLAMBOの識別的サロゲートは、純粋な単一タスク回帰器としてGPやSMACよりも弱いが、言語モデルによって誘導されるクロスタスクセマンティクスの利点がある。
テキストコンテキストを削除するアブレーションは予測精度とキャリブレーションを著しく低下させる一方、LLAMBO候補サンプリングはTPEやランダムサンプリングよりも高品質で多様な提案を生成する。
小さいバックボーン(Gemma 27B、Llama 3.1 8B)での実験では不安定または無効な予測が得られ、信頼できるサロゲート動作の能力が不足していることが示唆された。
全体として,LLAMBOアーキテクチャは言語モデルのバックボーンの変更に対して堅牢であり,Llama 3.1 70Bでインスタンス化しても有効であることを示す。
関連論文リスト
- HADSF: Aspect Aware Semantic Control for Explainable Recommendation [4.75127493865044]
大規模言語モデル(LLM)の最近の進歩は、推薦システムに対してより効果的な情報抽出を約束している。
本稿では,適応選択によるコンパクトなコーパスレベルのアスペクトボキャブラリを誘導し,構造化アスペクトオピニオン三重項のボキャブラリ誘導,明示的に制約された抽出を行う2段階アプローチを提案する。
1.5B-70Bパラメータにまたがる約300万のレビューに関する実験では、標準評価予測器に統合された場合、HADSFは予測エラーを一貫して減少させる。
論文 参考訳(メタデータ) (2025-10-30T20:49:33Z) - Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future [38.1810626252963]
自己回帰言語モデル(Self-Rewarding Language Models)は、LLM-as-a-Judgeプロンプトを通じて、大きな言語モデル(LLM)が応答を生成し、独自の出力を評価するアーキテクチャを提案する。
本研究では,過去,現在,将来のモデル世代を戦略的に調整し,学習信号を持続するテキストbf自己回帰言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-08T05:25:54Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - A Practice of Post-Training on Llama-3 70B with Optimal Selection of Additional Language Mixture Ratio [1.7082025044221352]
大規模言語モデル(LLM)は、慣れていない言語スキルを得たり、新しいドメインに適応するために、継続事前訓練(CPT)を必要とすることが多い。
本研究では, 言語混合比 (ALMR) と学習率 (LR) の最適相関を, 最適実験装置を直接示す8Bサイズで検討する。
LLMの最終70Bバージョンを実生活チャットシステムに展開し、満足な性能を得る。
論文 参考訳(メタデータ) (2024-09-10T16:26:43Z) - LLMs are Superior Feedback Providers: Bootstrapping Reasoning for Lie Detection with Self-Generated Feedback [33.14770105185958]
大型言語モデル (LLM) は人間に似た対話やテキストの理解に優れる。
本研究では,自己生成フィードバックを活用し,嘘検出のためのLPM推論能力を向上させるブートストラップフレームワークを提案する。
本稿では,外交ゲームにおける裏切・偽装検出のためのフレームワークの適用について検討し,プロの人間プレイヤーからのフィードバックと比較する。
論文 参考訳(メタデータ) (2024-08-25T18:47:55Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Optimizing Language Models for Human Preferences is a Causal Inference Problem [41.59906798328058]
直接結果データセットからの人間の嗜好に対する言語モデル最適化について検討する。
まず,言語モデルの最適化を因果問題と見なして,モデルがテキストと結果の関係を正しく学習することを保証する。
我々はCPOを2倍の頑健なCPOで拡張し、従属目的の分散を低減し、バイアスに対する確実な強い保証を維持します。
論文 参考訳(メタデータ) (2024-02-22T21:36:07Z) - Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。
高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。
以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T11:44:06Z) - DE$^3$-BERT: Distance-Enhanced Early Exiting for BERT based on
Prototypical Networks [43.967626080432275]
BERT(DE$3$-BERT)のための新しい遠隔拡張早期実行フレームワークを提案する。
我々は,古典的エントロピーに基づく地域情報と距離に基づくグローバル情報とを補完するハイブリッドエグジット戦略を実装した。
GLUEベンチマークの実験では、De$3$-BERTが最先端モデルより一貫して優れていることが示されている。
論文 参考訳(メタデータ) (2024-02-03T15:51:17Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。