論文の概要: Multi-Agent LLMs for Adaptive Acquisition in Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2603.28959v1
- Date: Mon, 30 Mar 2026 20:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.76141
- Title: Multi-Agent LLMs for Adaptive Acquisition in Bayesian Optimization
- Title(参考訳): ベイズ最適化における適応的獲得のためのマルチエージェントLLM
- Authors: Andrea Carbonati, Mohammadsina Almasi, Hadis Anahideh,
- Abstract要約: 本稿では,Large Language Models (LLM) が探索・探索戦略をどのように構築し,適応するかを示す。
本稿では,探索・探索制御を戦略的政策仲介と戦術的候補生成に分解する多エージェントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.6954666679827137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exploration-exploitation trade-off is central to sequential decision-making and black-box optimization, yet how Large Language Models (LLMs) reason about and manage this trade-off remains poorly understood. Unlike Bayesian Optimization, where exploration and exploitation are explicitly encoded through acquisition functions, LLM-based optimization relies on implicit, prompt-based reasoning over historical evaluations, making search behavior difficult to analyze or control. In this work, we present a metric-level study of LLM-mediated search policy learning, studying how LLMs construct and adapt exploration-exploitation strategies under multiple operational definitions of exploration, including informativeness, diversity, and representativeness. We show that single-agent LLM approaches, which jointly perform strategy selection and candidate generation within a single prompt, suffer from cognitive overload, leading to unstable search dynamics and premature convergence. To address this limitation, we propose a multi-agent framework that decomposes exploration-exploitation control into strategic policy mediation and tactical candidate generation. A strategy agent assigns interpretable weights to multiple search criteria, while a generation agent produces candidates conditioned on the resulting search policy defined as weights. This decomposition renders exploration-exploitation decisions explicit, observable, and adjustable. Empirical results across various continuous optimization benchmarks indicate that separating strategic control from candidate generation substantially improves the effectiveness of LLM-mediated search.
- Abstract(参考訳): 探索と探索のトレードオフは、シーケンシャルな意思決定とブラックボックス最適化の中心であるが、Large Language Models (LLMs)がいかにしてこのトレードオフを推論し、管理するかは理解されていない。
ベイズ最適化とは異なり、LLMに基づく最適化は歴史的評価に対する暗黙的かつ急進的な推論に依存しており、探索行動の分析や制御が困難である。
本研究では, LLMによる探索政策学習のメトリクスレベル研究を行い, 情報性, 多様性, 代表性など, 探索の複数の操作的定義の下で, LLMが探索-探索戦略を構築し, 適応する方法について検討する。
一つのプロンプト内で戦略選択と候補生成を共同で行う単一エージェントLSMアプローチは,認知的過負荷に悩まされ,不安定な探索ダイナミクスと早期収束をもたらすことを示す。
この制限に対処するために、探索・探索制御を戦略的な政策仲介と戦術的候補生成に分解するマルチエージェントフレームワークを提案する。
戦略エージェントは、解釈可能な重みを複数の探索基準に割り当て、生成エージェントは、重みとして定義された結果の探索ポリシーに条件付けられた候補を生成する。
この分解により、探索・探索の決定は明確で、観測可能で、調整可能である。
各種連続最適化ベンチマークにおける実験結果から, 候補生成からの戦略的制御の分離は, LLMによる探索の有効性を著しく向上させることが示された。
関連論文リスト
- Expanding LLM Agent Boundaries with Strategy-Guided Exploration [51.98616048282804]
強化学習(RL)は、コンピュータ使用、ツール呼び出し、コーディングなどのタスクのエージェントとして、大規模言語モデル(LLM)の訓練後において顕著な成功を収めた。
我々は,低レベルな行動から高レベルな言語戦略に移行するための戦略ガイド探索(SGE)を提案する。
論文 参考訳(メタデータ) (2026-03-02T16:28:39Z) - Who Sees What? Structured Thought-Action Sequences for Epistemic Reasoning in LLMs [1.090218572228214]
本研究では,LLMをベースとしたReActフレームワークの性能向上のための構造化例の可能性について検討した。
本稿では、最適ゴールパス(G型)、情報ノードパス(E型)、ステップバイステップの最適決定シーケンス(L型)の3つのカテゴリの例を生成する、構造化された解処理パイプラインを提案する。
L型の例は、明確化要求と全体的なアクションステップをわずかに削減するが、一貫性のある改善は得られない。
論文 参考訳(メタデータ) (2025-08-20T09:36:53Z) - A Survey on the Optimization of Large Language Model-based Agents [16.733092886211097]
大規模言語モデル(LLM)は様々な分野で広く採用されており、自律的な意思決定や対話的なタスクに欠かせないものとなっている。
しかしながら、現在の作業は通常、バニラLLMに適用された迅速な設計や微調整戦略に依存している。
LLMに基づくエージェント最適化手法の総合的なレビューを行い、パラメータ駆動型およびパラメータフリーな手法に分類する。
論文 参考訳(メタデータ) (2025-03-16T10:09:10Z) - ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments [7.508204100423766]
LLMを用いた推論のためのマルチエージェントアーキテクチャであるARIESを紹介する。
教師付き微調整(SFT)のない政策エージェントとして市販のLCMを使用することで,HumanEvalの精度が最大29%向上することが観察された。
また、観測された障害モードの徹底的な解析を行い、LLMサイズと問題分解の深さの制限が、LLM誘導推論をスケールする上での課題であることを示した。
論文 参考訳(メタデータ) (2025-02-28T16:28:13Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。