論文の概要: Evidence-Gated LLM Priors for Multi-Objective Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2606.01730v1
- Date: Mon, 01 Jun 2026 05:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.400841
- Title: Evidence-Gated LLM Priors for Multi-Objective Bayesian Optimization
- Title(参考訳): Evidence-Gated LLM Priors for Multi-Objective Bayesian Optimization
- Authors: Jiangyu Chen, Banyi,
- Abstract要約: 大規模言語モデル (LLM) はブラックボックス最適化のアドバイザとしてますます使われているが、その提案と自己報告された自信は、必ずしも下流の客観的値に調整されるとは限らない。
離散多目的ベイズ最適化において, LLM 生成した専門家を盲目的に信頼せずに利用する方法について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used as heuristic advisors for black-box optimization, yet their suggestions and self-reported confidence are not necessarily calibrated to downstream objective values. This issue becomes more pronounced in multi-objective Bayesian optimization, where different objectives may require different expert knowledge and where an LLM expert can be useful for one objective but misleading for another. We study how to use LLM-generated expert priors in discrete multi-objective Bayesian optimization without blindly trusting them. We propose an objective-wise reputation-market mechanism that treats each expert-objective pair as a falsifiable prior source. Expert weights are updated online from observed objective feedback, discounted over time, and gated by market-level trust. We then introduce a decoupled counterfactual gate that can use the LLM prior without confidence, use it with confidence, or abstain from the LLM prior entirely. Across controlled synthetic stress tests and three molecule optimization benchmarks with \qwenflash{}-generated expert priors, we find that dynamic objective-wise calibration improves robustness over fixed LLM priors. However, raw LLM confidence is not reliably beneficial: on ESOL, confidence is positively correlated with prediction error; on FreeSolv, confidence can help; and on Lipophilicity, ignoring confidence remains strongest. Our fixed three-arm counterfactual gate improves over the first counterfactual variant on ESOL and FreeSolv, while an attempted margin portfolio exposes a useful negative result: margin selection should be acquisition-aware rather than based only on one-step prior error.
- Abstract(参考訳): 大規模言語モデル (LLM) はブラックボックス最適化のヒューリスティックアドバイザとしてますます使われているが、その提案と自己報告された自信は、必ずしも下流の客観的値に調整されるとは限らない。
この問題は多目的ベイズ最適化においてより顕著になり、異なる目的が異なる専門家の知識を必要とする場合と、LLMの専門家が一つの目的に有用であるが別の目的に誤解をもたらす場合である。
離散多目的ベイズ最適化において, LLM 生成した専門家を盲目的に信頼せずに利用する方法について検討した。
本稿では、各専門家と客観的なペアを偽造可能な事前情報源として扱う客観的評価市場機構を提案する。
専門家の重みは、観察された客観的フィードバックからオンラインで更新され、時間の経過とともに割引され、市場レベルの信頼によって強制される。
次に,LLM を信頼せずに,信頼を持って使用したり,信頼を持って使用したり,あるいは LLM を完全に排除したりできる非結合の対物ゲートを導入する。
制御された合成応力試験と,\qwenflash{} 生成したエキスパート前駆体を用いた3分子最適化ベンチマークにより,動的主観的キャリブレーションが固定LDM前駆体よりも堅牢性を向上させることが判明した。
ESOLでは、信頼は予測エラーと肯定的に相関し、FreeSolvでは、信頼は役立つ。
固定された3腕対物ゲートはESOLとFreeSolvの最初の対物変種よりも改善され、一方、試用されたマージンポートフォリオは有用なネガティブな結果を示している。
関連論文リスト
- Your Pre-trained LLM is Secretly an Unsupervised Confidence Calibrator [20.81467363927836]
ポストトレーニングされた言語モデル(PoLM)は、しばしば過剰な自信に悩まされ、正しい出力と間違った出力の両方に高い信頼を割り当てる。
PoLMの校正における大きな障害は、個々の下流タスクのためのラベル付きデータの不足である。
本稿では,時間後信頼度校正におけるパラメータを最適化するために,DACA(Disagreement-Aware Confidence Alignment)を提案する。
論文 参考訳(メタデータ) (2025-05-22T13:55:39Z) - Calibrating Large Language Models Using Their Generations Only [44.26441565763495]
APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。
概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。
閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
論文 参考訳(メタデータ) (2024-03-09T17:46:24Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。