論文の概要: LLMs for Bayesian Optimization in Scientific Domains: Are We There Yet?
- arxiv url: http://arxiv.org/abs/2509.21403v1
- Date: Wed, 24 Sep 2025 15:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.910844
- Title: LLMs for Bayesian Optimization in Scientific Domains: Are We There Yet?
- Title(参考訳): LLMs for Bayesian Optimization in Scientific Domains: We Are There there?
- Authors: Rushil Gupta, Jason Hartford, Bang Liu,
- Abstract要約: 大規模言語モデル (LLM) は実験設計のための汎用エージェントとして提案されている。
本仮説は, 遺伝的摂動および分子特性探索に応用したオープンソースとクローズドソースのLLMを用いて評価する。
LLMをベースとしたエージェントは、実験的なフィードバックに敏感ではなく、実結果をランダムに置換したラベルに置き換えることは、性能に影響を与えない。
- 参考スコア(独自算出の注目度): 25.116042999105193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently been proposed as general-purpose agents for experimental design, with claims that they can perform in-context experimental design. We evaluate this hypothesis using both open- and closed-source instruction-tuned LLMs applied to genetic perturbation and molecular property discovery tasks. We find that LLM-based agents show no sensitivity to experimental feedback: replacing true outcomes with randomly permuted labels has no impact on performance. Across benchmarks, classical methods such as linear bandits and Gaussian process optimization consistently outperform LLM agents. We further propose a simple hybrid method, LLM-guided Nearest Neighbour (LLMNN) sampling, that combines LLM prior knowledge with nearest-neighbor sampling to guide the design of experiments. LLMNN achieves competitive or superior performance across domains without requiring significant in-context adaptation. These results suggest that current open- and closed-source LLMs do not perform in-context experimental design in practice and highlight the need for hybrid frameworks that decouple prior-based reasoning from batch acquisition with updated posteriors.
- Abstract(参考訳): 大規模言語モデル (LLM) は、最近実験設計のための汎用エージェントとして提案され、文脈内実験設計が可能であると主張している。
本仮説は, 遺伝的摂動および分子特性探索に応用したオープンソースとクローズドソースのLLMを用いて評価する。
LLMをベースとしたエージェントは、実験的なフィードバックに対する感受性を示さず、真の結果をランダムに置換されたラベルに置き換えることは、性能に影響を与えない。
ベンチマーク全体において、線形帯域やガウス過程の最適化といった古典的な手法はLLMエージェントより一貫して優れている。
さらに, LLMの事前知識と最寄りのサンプリングを組み合わせることで, 実験の設計を導く, 簡便なハイブリッド手法であるLLMNNサンプリングを提案する。
LLMNNは、重要なコンテキスト内適応を必要とせずに、ドメイン間での競合や優れたパフォーマンスを達成する。
これらの結果は、現在のオープンソースおよびクローズドソース LLM は、実際にコンテキスト内での実験的な設計を行っていないことを示唆し、更新された後続のバッチ取得から事前ベース推論を分離するハイブリッドフレームワークの必要性を強調している。
関連論文リスト
- Reasoning with Preference Constraints: A Benchmark for Language Models in Many-to-One Matching Markets [13.111181135818184]
大規模言語モデル (LLM) は、最適化を含む複雑な数学的タスクにおいて強い性能を示している。
優先的かつ構造的な制約の下で推論を必要とする問題にLLMを適用することは、まだ未定である。
我々は,大学入学問題の369件の新たなベンチマークを用いて,実用性,安定性,最適性といった重要な次元にわたるLSMを評価する。
論文 参考訳(メタデータ) (2025-09-16T14:48:46Z) - Semantic-Augmented Latent Topic Modeling with LLM-in-the-Loop [9.763247646329392]
Latent Dirichlet Allocation (LDA)は、文書コレクション内の抽象トピックを明らかにするために使用される顕著な生成確率モデルである。
本稿では,Large Language Models (LLMs) を用いたトピックモデルの拡張の有効性を,初期化とポストコレクションの2つの重要なフェーズに統合することによって検討する。
論文 参考訳(メタデータ) (2025-07-11T11:20:39Z) - LENSLLM: Unveiling Fine-Tuning Dynamics for LLM Selection [11.353302879735862]
オープンソースのLarge Language Models (LLM) と様々な下流タスクは効率的なモデル選択を必要とする。
LLMの一般化能力を評価するための適切なレンズを提供する新しい理論フレームワークを提案する。
特に, LLMの微調整ダイナミクスを明らかにするPAC-Bayesian Generalization Boundを導出する。
次に,ニューラルタンジェントカーネル(NTK)をベースとしたRectified Scaling ModelであるLENSLLMを紹介し,正確な性能予測を実現する。
論文 参考訳(メタデータ) (2025-05-01T15:07:32Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Optimizing Knowledge Integration in Retrieval-Augmented Generation with Self-Selection [72.92366526004464]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) がより正確で信頼性の高い応答を生成するのに有効であることが証明されている。
本稿では,自己選択型RAGフレームワークを提案する。このフレームワークでは,内部パラメトリック知識のみで生成されたペアの応答からLLMを選択できる。
論文 参考訳(メタデータ) (2025-02-10T04:29:36Z) - Large Language Model-Enhanced Multi-Armed Bandits [43.34246396804588]
大規模言語モデル(LLM)は、マルチアーム・バンディット(MAB)のようなシーケンシャルな意思決定タスクを解決するために採用されている。
古典的MABとLLMの強みを組み合わせた代替手法を提案する。
実世界のテキストデータセットを用いて設計したMABタスクと実験の両方を用いて経験的評価を行う。
論文 参考訳(メタデータ) (2025-02-03T07:19:05Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Generalists vs. Specialists: Evaluating LLMs on Highly-Constrained Biophysical Sequence Optimization Tasks [37.326754557721586]
大規模言語モデル (LLM) は生体分子最適化問題において有望であることを示す。
LaMBO-2のような特殊なソルバは、効率性ときめ細かい制御を提供するが、より多くのドメインの専門知識を必要とする。
生物物理シーケンス最適化問題の幾何学的構造を捉えた合成テストスイートであるEhrlich関数を導入することで、この問題に対処する。
論文 参考訳(メタデータ) (2024-10-29T17:45:57Z) - Sequential Large Language Model-Based Hyper-parameter Optimization [0.0]
本研究では,大規模言語モデル(LLM)をハイパーパラメータ最適化(HPO)に活用する革新的なフレームワークSLLMBOを紹介する。
動的探索空間適応性、拡張パラメータ空間利用、新しいLLM木構造パーゼン推定器(LLM-TPE)が組み込まれている。
この総合ベンチマークは、GPT-3.5-Turbo、GPT-4o、Claude-Sonnet-3.5、Gemini-1.5-Flashを含む複数のLCMを評価する。
論文 参考訳(メタデータ) (2024-10-27T00:50:30Z) - SELF-[IN]CORRECT: LLMs Struggle with Discriminating Self-Generated Responses [49.148206387394936]
モデルでは、初期応答を生成するよりも、以前に生成した代替品間での識別性が確実に向上しないことが示される。
この発見は LLM が自身の判断によってのみ性能を向上させることができるという概念に挑戦する。
論文 参考訳(メタデータ) (2024-04-04T20:27:37Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。