論文の概要: Bayesian Optimization in Language Space: An Eval-Efficient AI Self-Improvement Framework
- arxiv url: http://arxiv.org/abs/2511.12063v1
- Date: Sat, 15 Nov 2025 07:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.575598
- Title: Bayesian Optimization in Language Space: An Eval-Efficient AI Self-Improvement Framework
- Title(参考訳): 言語空間におけるベイズ最適化 - Eval-Efficient AI Self-Improvement Framework
- Authors: Enoch Hyunwook Kang, Hema Yoganarasimhan,
- Abstract要約: 大規模言語モデル(LLM)は、最近、自己改善型AI、すなわち、自身の成果を反復的に生成し、評価し、洗練するAIを可能にした。
多くの社会的応用において、第一の限界は、新しい解を生成するのではなく、それらを評価することである。
本稿では, 単純かつ広く使用されているBest-of-N選択戦略と単純なテキスト勾配の組み合わせが, 標準 UCB 取得関数上の勾配の挙動を統計的にエミュレートすることを証明することで, この課題を克服する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently enabled self-improving AI, i.e., AI that iteratively generates, evaluates, and refines its own outcomes. Recent studies have shown that self-improving AI focusing on prompt optimization can outperform state-of-the-art reinforcement-learning fine-tuned LLMs. Here, their `performance' is typically measured by query efficiency - the number of LLM-generated solution samples required to meet a certain performance threshold. However, in many societal applications, the primary limitation is not generating new solutions but evaluating them. For instance, evaluating an ad's effectiveness requires significant human feedback, which is far more costly and time-consuming than generating a candidate ad. To optimize for the evaluation efficiency objective, a natural approach is to extend Bayesian Optimization (BO), a framework proven optimal for evaluation efficiency, to the language domain. However, the difficulty of directly estimating suitable acquisition functions in LLMs' minds makes this extension challenging. This paper overcomes this challenge by proving that the combination of the simple and widely used Best-of-N selection strategy and simple textual gradients (i.e., textual edits from a critic model) statistically emulates the behavior of the gradients on the canonical UCB acquisition function, which induces optimal exploration in terms of evaluation efficiency. Based on this result, we propose TextGrad-Best-of-N Bayesian Optimization (T-BoN BO), a simple and eval-efficient language-space Bayesian optimization framework for AI self-improvement. We also empirically validate T-BoN BO by applying it to automated ad alignment tasks for persona distribution, demonstrating its superior performance compared to popular state-of-the-art baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、自己改善型AI、すなわち、自身の成果を反復的に生成し、評価し、洗練するAIを可能にした。
近年の研究では、迅速な最適化に焦点を当てた自己改善型AIは、最先端の強化学習微調整LDMよりも優れていることが示されている。
ここでは、それらの'パフォーマンス'は、典型的にはクエリ効率によって測定される。
しかし、多くの社会的応用において、第一の限界は、新しい解を生成するのではなく、それらを評価することである。
例えば、広告の有効性を評価するには、人的フィードバックがかなり必要であり、候補広告を生成するよりもはるかにコストと時間を要する。
評価効率を最適化するためには、評価効率に最適なフレームワークであるベイズ最適化(BO)を言語領域に拡張するのが自然なアプローチである。
しかし、LLMの心の中で適切な獲得関数を直接推定することの難しさは、この拡張を困難にしている。
本稿では, 単純かつ広く使用されているBest-of-N選択戦略と簡易テキスト勾配(すなわち, 批評家モデルからのテキスト編集)の組み合わせが, 標準 UCB 取得関数上の勾配の挙動を統計的にエミュレートし, 評価効率の観点から最適な探索を導くことを証明して, この課題を克服する。
この結果に基づいて,AI自己改善のための単純で等価な言語空間ベイズ最適化フレームワークであるTextGrad-Best-of-N Bayesian Optimization (T-BoN BO)を提案する。
また,T-BoN BOをペルソナ配信のための自動広告アライメントタスクに適用することにより,T-BoN BOの有効性を実証的に検証した。
関連論文リスト
- Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [45.64632177923583]
本研究は、不要なデータの影響を取り除くことを目的として、大規模言語モデル(LLM)アンラーニングの問題を研究する。
未学習の需要が増えているにもかかわらず、技術的に地平線を画した最適化フレームワークは欠如している。
我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルへの依存をなくすことによる「単純さ」がアンラーニングの恩恵をもたらすことを示した。
論文 参考訳(メタデータ) (2024-10-09T17:58:12Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Efficient Budget Allocation for Large-Scale LLM-Enabled Virtual Screening [0.9558392439655016]
そこで我々は,LLM-as- human-evaluatorアプローチによるスクリーニングを事実上実施し,コスト負担を低減した。
我々は,トップ$m$greedy評価機構を用いて,探索ファーストの上位$m$greedy (EFG-$m$) アルゴリズムを設計する。
驚いたことに、我々はボーナスランキング効果を発見し、アルゴリズムは選択されたサブセット内で、自然に無関心なランキングを誘導する。
論文 参考訳(メタデータ) (2024-08-18T16:44:41Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Localized Zeroth-Order Prompt Optimization [54.964765668688806]
そこで我々は,ZOPO(Localized zeroth-order prompt optimization)という新しいアルゴリズムを提案する。
ZOPOはニューラル・タンジェント・カーネルをベースとしたガウス法を標準ゼロ階次最適化に取り入れ、高速な局所最適探索を高速化する。
注目すべきは、ZOPOは最適化性能とクエリ効率の両方の観点から、既存のベースラインを上回っていることだ。
論文 参考訳(メタデータ) (2024-03-05T14:18:15Z) - SEE: Strategic Exploration and Exploitation for Cohesive In-Context Prompt Optimization [8.975505323004427]
大規模言語モデル(LLM)のための新しい結合型インコンテキストプロンプト最適化フレームワークを提案する。
SEEは、メタヒューリスティック最適化の原則を採用し、戦略的に探索と活用を行うスケーラブルで効率的なプロンプト最適化フレームワークである。
SEEは最先端のベースライン法を大幅に上回り、平均性能は13.94、計算コストは58.67である。
論文 参考訳(メタデータ) (2024-02-17T17:47:10Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。