論文の概要: LLMs for Bayesian Optimization in Scientific Domains: Are We There Yet?
- arxiv url: http://arxiv.org/abs/2509.21403v1
- Date: Wed, 24 Sep 2025 15:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.910844
- Title: LLMs for Bayesian Optimization in Scientific Domains: Are We There Yet?
- Title(参考訳): LLMs for Bayesian Optimization in Scientific Domains: We Are There there?
- Authors: Rushil Gupta, Jason Hartford, Bang Liu,
- Abstract要約: 大規模言語モデル (LLM) は実験設計のための汎用エージェントとして提案されている。
本仮説は, 遺伝的摂動および分子特性探索に応用したオープンソースとクローズドソースのLLMを用いて評価する。
LLMをベースとしたエージェントは、実験的なフィードバックに敏感ではなく、実結果をランダムに置換したラベルに置き換えることは、性能に影響を与えない。
- 参考スコア(独自算出の注目度): 25.116042999105193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently been proposed as general-purpose agents for experimental design, with claims that they can perform in-context experimental design. We evaluate this hypothesis using both open- and closed-source instruction-tuned LLMs applied to genetic perturbation and molecular property discovery tasks. We find that LLM-based agents show no sensitivity to experimental feedback: replacing true outcomes with randomly permuted labels has no impact on performance. Across benchmarks, classical methods such as linear bandits and Gaussian process optimization consistently outperform LLM agents. We further propose a simple hybrid method, LLM-guided Nearest Neighbour (LLMNN) sampling, that combines LLM prior knowledge with nearest-neighbor sampling to guide the design of experiments. LLMNN achieves competitive or superior performance across domains without requiring significant in-context adaptation. These results suggest that current open- and closed-source LLMs do not perform in-context experimental design in practice and highlight the need for hybrid frameworks that decouple prior-based reasoning from batch acquisition with updated posteriors.
- Abstract(参考訳): 大規模言語モデル (LLM) は、最近実験設計のための汎用エージェントとして提案され、文脈内実験設計が可能であると主張している。
本仮説は, 遺伝的摂動および分子特性探索に応用したオープンソースとクローズドソースのLLMを用いて評価する。
LLMをベースとしたエージェントは、実験的なフィードバックに対する感受性を示さず、真の結果をランダムに置換されたラベルに置き換えることは、性能に影響を与えない。
ベンチマーク全体において、線形帯域やガウス過程の最適化といった古典的な手法はLLMエージェントより一貫して優れている。
さらに, LLMの事前知識と最寄りのサンプリングを組み合わせることで, 実験の設計を導く, 簡便なハイブリッド手法であるLLMNNサンプリングを提案する。
LLMNNは、重要なコンテキスト内適応を必要とせずに、ドメイン間での競合や優れたパフォーマンスを達成する。
これらの結果は、現在のオープンソースおよびクローズドソース LLM は、実際にコンテキスト内での実験的な設計を行っていないことを示唆し、更新された後続のバッチ取得から事前ベース推論を分離するハイブリッドフレームワークの必要性を強調している。
関連論文リスト
- LENSLLM: Unveiling Fine-Tuning Dynamics for LLM Selection [11.353302879735862]
オープンソースのLarge Language Models (LLM) と様々な下流タスクは効率的なモデル選択を必要とする。
LLMの一般化能力を評価するための適切なレンズを提供する新しい理論フレームワークを提案する。
特に, LLMの微調整ダイナミクスを明らかにするPAC-Bayesian Generalization Boundを導出する。
次に,ニューラルタンジェントカーネル(NTK)をベースとしたRectified Scaling ModelであるLENSLLMを紹介し,正確な性能予測を実現する。
論文 参考訳(メタデータ) (2025-05-01T15:07:32Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Optimizing Knowledge Integration in Retrieval-Augmented Generation with Self-Selection [72.92366526004464]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) がより正確で信頼性の高い応答を生成するのに有効であることが証明されている。
本稿では,自己選択型RAGフレームワークを提案する。このフレームワークでは,内部パラメトリック知識のみで生成されたペアの応答からLLMを選択できる。
論文 参考訳(メタデータ) (2025-02-10T04:29:36Z) - Generalists vs. Specialists: Evaluating LLMs on Highly-Constrained Biophysical Sequence Optimization Tasks [37.326754557721586]
大規模言語モデル (LLM) は生体分子最適化問題において有望であることを示す。
LaMBO-2のような特殊なソルバは、効率性ときめ細かい制御を提供するが、より多くのドメインの専門知識を必要とする。
生物物理シーケンス最適化問題の幾何学的構造を捉えた合成テストスイートであるEhrlich関数を導入することで、この問題に対処する。
論文 参考訳(メタデータ) (2024-10-29T17:45:57Z) - SELF-[IN]CORRECT: LLMs Struggle with Discriminating Self-Generated Responses [49.148206387394936]
モデルでは、初期応答を生成するよりも、以前に生成した代替品間での識別性が確実に向上しないことが示される。
この発見は LLM が自身の判断によってのみ性能を向上させることができるという概念に挑戦する。
論文 参考訳(メタデータ) (2024-04-04T20:27:37Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。