論文の概要: LILO: Bayesian Optimization with Interactive Natural Language Feedback
- arxiv url: http://arxiv.org/abs/2510.17671v1
- Date: Mon, 20 Oct 2025 15:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.508258
- Title: LILO: Bayesian Optimization with Interactive Natural Language Feedback
- Title(参考訳): LILO:対話型自然言語フィードバックによるベイズ最適化
- Authors: Katarzyna Kobalczyk, Zhiyuan Jerry Lin, Benjamin Letham, Zhuokai Zhao, Maximilian Balandat, Eytan Bakshy,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いて,非構造化フィードバックを実用的信号に変換する言語-in-the-loopフレームワークを提案する。
このハイブリッド手法は意思決定者にとってより自然なインタフェースであり、従来のBOベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 17.560651032728714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For many real-world applications, feedback is essential in translating complex, nuanced, or subjective goals into quantifiable optimization objectives. We propose a language-in-the-loop framework that uses a large language model (LLM) to convert unstructured feedback in the form of natural language into scalar utilities to conduct BO over a numeric search space. Unlike preferential BO, which only accepts restricted feedback formats and requires customized models for each domain-specific problem, our approach leverages LLMs to turn varied types of textual feedback into consistent utility signals and to easily include flexible user priors without manual kernel design. At the same time, our method maintains the sample efficiency and principled uncertainty quantification of BO. We show that this hybrid method not only provides a more natural interface to the decision maker but also outperforms conventional BO baselines and LLM-only optimizers, particularly in feedback-limited regimes.
- Abstract(参考訳): 多くの現実世界のアプリケーションにとって、フィードバックは複雑な、ニュアンス化された、あるいは主観的な目標を定量化された最適化目標に変換するのに不可欠である。
本稿では,Language-in-the-loopフレームワークを提案する。このフレームワークは,Language Language Model (LLM) を用いて,自然言語の形で構造化されていないフィードバックをスカラーユーティリティに変換し,数値検索空間上でBOを実行する。
制限されたフィードバック形式のみを受け入れ,各ドメイン固有の問題に対してカスタマイズされたモデルを必要とする優先的なBOとは異なり,本手法ではLLMを活用して,さまざまなタイプのテキストフィードバックを一貫したユーティリティ信号に変換するとともに,手動のカーネル設計を必要とせずに,柔軟性のあるユーザプライオリティを組み込む。
同時に,本手法は,BOのサンプル効率と原理的不確実性定量化を維持できる。
このハイブリッド手法は,意思決定者に対してより自然なインタフェースを提供するだけでなく,従来のBOベースラインやLLM専用オプティマイザ,特にフィードバック限定型システムにおいて,優れた性能を発揮することを示す。
関連論文リスト
- POPI: Personalizing LLMs via Optimized Natural Language Preference Inference [42.25870704040321]
POPIは、不均一なユーザ信号を簡潔な自然言語要約に変換するための選好推論モデルを導入する一般的なフレームワークである。
これらの要約は、パーソナライズされた応答を生成するために共有生成モデルを必要とする透明でコンパクトで、転送可能なパーソナライズ表現として機能する。
4つのパーソナライズベンチマークによる大規模な実験により、POPIはパーソナライズ精度を常に改善し、コンテキストオーバーヘッドを大きなマージンで低減することを示した。
論文 参考訳(メタデータ) (2025-10-17T23:07:57Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation [18.550311424902358]
大規模言語モデル(LLM)は、完全な自然言語(NL)PE対話を可能にする。
ユーザの好みの発話とNL項目記述の間で自然言語推論(NLI)を利用する新しいNL-PEアルゴリズムであるPEBOLを提案する。
PEBOLは最大0.27のMRR@10を達成できるのに対し、最高のモノリシックLCMベースラインのMRR@10は0.17のMRR@10を達成できる。
論文 参考訳(メタデータ) (2024-05-02T03:35:21Z) - Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。
高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。
以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T11:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。