論文の概要: FedPOB: Sample-Efficient Federated Prompt Optimization via Bandits
- arxiv url: http://arxiv.org/abs/2509.24701v1
- Date: Mon, 29 Sep 2025 12:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.976405
- Title: FedPOB: Sample-Efficient Federated Prompt Optimization via Bandits
- Title(参考訳): FedPOB:バンドによる効率の良いフェデレートプロンプト最適化
- Authors: Pingchen Lu, Zhi Hong, Zhiwei Shang, Zhiyong Wang, Yikun Ban, Yao Shu, Min Zhang, Shuang Qiu, Zhongxiang Dai,
- Abstract要約: マルチアームバンディット(MAB)に基づく,サンプル効率の高いフェデレーションプロンプト最適化のための新しいフレームワークを提案する。
MABフレームワークは,(1)ブラックボックス最適化法,(2)事実上のサンプリング効率,(3)理論的に保証されたエージェントの利益と協調学習を可能にするため,この問題に特化している。
- 参考スコア(独自算出の注目度): 44.444223633730154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of large language models (LLMs) is highly sensitive to the input prompt, making prompt optimization a critical task. However, real-world application is hindered by three major challenges: (1) the black-box nature of powerful proprietary LLMs, (2) the need for high sample efficiency due to query costs, and (3) the desire for privacy-preserving collaboration among multiple users. To address these challenges simultaneously, we introduce a novel framework for sample-efficient federated prompt optimization based on multi-armed bandits (MABs). The MAB framework is uniquely suited for this problem as it is (1) inherently a black-box optimization method, (2) practically sample-efficient, and (3) enables collaborative learning with theoretically guaranteed benefit from more participating agents. We first propose the Federated Prompt Optimization via Bandits (FedPOB) algorithm, a federated variant of the Linear UCB algorithm, where agents collaborate by sharing model parameters instead of raw data. We then extend our approach to the practical setting of comparative user feedback by introducing FedPOB with Preference Feedback (FedPOB-Pref), an efficient algorithm based on federated dueling bandits. Extensive experiments demonstrate that both FedPOB and FedPOB-Pref significantly outperform existing baselines and that their performance consistently improves as more agents participate in the collaboration, validating the effectiveness of our federated approach.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能は入力プロンプトに非常に敏感であり、迅速な最適化が重要な課題である。
しかし,実世界のアプリケーションには,(1)プロプライエタリなLDMのブラックボックスの性質,(2)クエリコストによる高サンプリング効率の必要性,(3)複数ユーザ間のプライバシー保護コラボレーションの欲求,という3つの大きな課題が伴う。
これらの課題を同時に解決するために,マルチアームバンディット(MAB)に基づく,サンプル効率の高いフェデレーションプロンプト最適化のための新しいフレームワークを提案する。
MABフレームワークは,(1)ブラックボックス最適化法,(2)事実上のサンプリング効率,(3)理論的に保証されたエージェントの利益と協調学習を可能にするため,この問題に特化している。
我々はまず,線形 UCB アルゴリズムのフェデレート変種であるFedPOB (Federated Prompt Optimization via Bandits) アルゴリズムを提案する。
次に,FedPOB と Preference Feedback (FedPOB-Pref) を導入することで,提案手法をユーザフィードバックの実践的設定に拡張する。
大規模な実験により、FedPOBとFedPOB-Prefはどちらも既存のベースラインを著しく上回り、さらに多くのエージェントがコラボレーションに参加し、我々のフェデレートされたアプローチの有効性を検証することにより、そのパフォーマンスが一貫して向上することを示した。
関連論文リスト
- M3PO: Multimodal-Model-Guided Preference Optimization for Visual Instruction Following [4.119014132092875]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダル命令の潜在能力を秘めている。
M3POはLVLMの視覚的命令の処理能力を高めるために設計された,新しい,データ効率のよい手法である。
M3POは、LVLM生成候補の多様なプールから、最も「学習価値の高い」選好サンプルペアをインテリジェントに選択する。
論文 参考訳(メタデータ) (2025-08-17T18:07:55Z) - Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits [15.700062892888084]
我々は、割り当て前に選択した武器に関する情報を戦略的に収集する新しい探索フレームワークを導入する。
報奨分布が知られているオフライン環境では、準モジュラ特性を利用して、証明可能な性能境界を持つ欲求探索アルゴリズムを設計する。
より複雑なオンライン設定では、公平性を維持しながらサブ線形後悔を実現するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2025-06-17T21:43:21Z) - Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。
本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-04T07:55:41Z) - Efficient and Robust Regularized Federated Recommendation [52.24782464815489]
推薦システム(RSRS)は、ユーザの好みとプライバシの両方に対処する。
通信効率を向上させるために,非一様勾配勾配勾配を取り入れた新しい手法を提案する。
RFRecFの強靭性は、多様なベースラインに比べて優れている。
論文 参考訳(メタデータ) (2024-11-03T12:10:20Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Efficient Prompt Optimization Through the Lens of Best Arm Identification [50.56113809171805]
この作業は、明示的な予算制約の下でプロンプト選択を効率的に行うための、原則化されたフレームワークであるTRIPLEを提供する。
マルチアームバンディット(MAB)における即時最適化と固定予算ベストアーム識別(BAI-FB)の間に確立された新しい接続上に構築されている。
論文 参考訳(メタデータ) (2024-02-15T05:31:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。