論文の概要: Provably Efficient Multi-Objective Bandit Algorithms under Preference-Centric Customization
- arxiv url: http://arxiv.org/abs/2502.13457v1
- Date: Wed, 19 Feb 2025 06:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:27.012739
- Title: Provably Efficient Multi-Objective Bandit Algorithms under Preference-Centric Customization
- Title(参考訳): 選好中心のカスタマイズにおける多目的帯域幅アルゴリズムの有効性
- Authors: Linfeng Cao, Ming Shi, Ness B. Shroff,
- Abstract要約: 明示的なユーザ嗜好の存在下で、嗜好を意識したMO-MABフレームワークについて検討する。
これは、明示的なユーザの好みを持つカスタマイズされたMO-MAB最適化に関する最初の理論的研究である。
- 参考スコア(独自算出の注目度): 24.533662423325943
- License:
- Abstract: Multi-objective multi-armed bandit (MO-MAB) problems traditionally aim to achieve Pareto optimality. However, real-world scenarios often involve users with varying preferences across objectives, resulting in a Pareto-optimal arm that may score high for one user but perform quite poorly for another. This highlights the need for customized learning, a factor often overlooked in prior research. To address this, we study a preference-aware MO-MAB framework in the presence of explicit user preference. It shifts the focus from achieving Pareto optimality to further optimizing within the Pareto front under preference-centric customization. To our knowledge, this is the first theoretical study of customized MO-MAB optimization with explicit user preferences. Motivated by practical applications, we explore two scenarios: unknown preference and hidden preference, each presenting unique challenges for algorithm design and analysis. At the core of our algorithms are preference estimation and preference-aware optimization mechanisms to adapt to user preferences effectively. We further develop novel analytical techniques to establish near-optimal regret of the proposed algorithms. Strong empirical performance confirm the effectiveness of our approach.
- Abstract(参考訳): 多目的多武装バンディット(MO-MAB)問題は、伝統的にパレートの最適性を達成することを目的としている。
しかし、現実のシナリオは、しばしば目的によって異なる好みを持つユーザーを巻き込み、結果としてパレート・最適の腕は、あるユーザーにとって高く評価されるが、他のユーザーにとっては非常に低いパフォーマンスをもたらす。
これは、前の研究でしばしば見過ごされる要因であるカスタマイズされた学習の必要性を強調している。
そこで本研究では,明示的なユーザ嗜好の存在下で,嗜好を意識したMO-MABフレームワークについて検討する。
それは、好み中心のカスタマイズの下で、Paretoの最適性を達成することから、Paretoのフロント内でさらなる最適化へと焦点を移す。
我々の知る限り、これは明示的なユーザの好みを持つカスタマイズされたMO-MAB最適化に関する最初の理論的研究である。
実践的な応用によって動機づけられた我々は、未知の選好と隠された選好の2つのシナリオを探索し、それぞれがアルゴリズムの設計と分析に固有の課題を提示する。
我々のアルゴリズムの中核は、ユーザの好みに効果的に対応するための好み推定と好み認識最適化機構である。
さらに,提案アルゴリズムのほぼ最適後悔を確立するために,新たな解析手法を開発した。
強い経験的性能は我々のアプローチの有効性を裏付けるものである。
関連論文リスト
- Quantifying User Coherence: A Unified Framework for Cross-Domain Recommendation Analysis [69.37718774071793]
本稿では,レコメンデーションシステムを理解するための新しい情報理論手法を提案する。
9つのデータセットで7つのレコメンデーションアルゴリズムを評価し、測定値と標準的なパフォーマンス指標の関係を明らかにする。
論文 参考訳(メタデータ) (2024-10-03T13:02:07Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Data-Efficient Interactive Multi-Objective Optimization Using ParEGO [6.042269506496206]
多目的最適化は、競合する目的間の最適なトレードオフを提供する非支配的なソリューションの集合を特定することを目的としている。
実践的な応用では、意思決定者(DM)は実装すべき好みに合わせて単一のソリューションを選択する。
そこで本稿では,パレートフロントの最も好まれる領域を,高コストで評価できる2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-12T15:55:51Z) - Direct Preference-Based Evolutionary Multi-Objective Optimization with
Dueling Bandit [6.434590883720791]
本稿では,人間のフィードバックのみに頼って,適合度関数の計算を補助する手法を提案する。
提案手法では,アクティブ・デュエル・バンディット・アルゴリズムにより直接選好学習を行う。
本研究は,従来の手法の限界に対処するだけでなく,最適化問題に対する新たな可能性を明らかにする,インタラクティブな嗜好ベースのMOEAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T13:38:43Z) - Multi-Objective Bayesian Optimization with Active Preference Learning [18.066263838953223]
本稿では,多目的最適化 (MOO) 問題において最も望ましい解を特定するためのベイズ最適化 (BO) 手法を提案する。
また、意思決定者(DM)との相互作用コストを最小限に抑えるため、選好推定のためのアクティブラーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-11-22T15:24:36Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - Characterization of Constrained Continuous Multiobjective Optimization
Problems: A Performance Space Perspective [0.0]
制約付き多目的最適化問題(CMOP)は不満足に理解されている。
ベンチマークのための適切なCMOPの選択は困難で、正式なバックグラウンドが欠如しています。
本稿では,制約付き多目的最適化のための新しい性能評価手法を提案する。
論文 参考訳(メタデータ) (2023-02-04T14:12:30Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか?
まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。
また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文 参考訳(メタデータ) (2022-03-12T16:07:57Z) - A unified surrogate-based scheme for black-box and preference-based
optimization [2.561649173827544]
ブラックボックスと嗜好に基づく最適化問題は密接に関連しており、同じアプローチのファミリを用いて解決可能であることを示す。
一般的なMSRSフレームワークを一般化した最適化手法である一般化されたメトリック応答面(gMRS)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-03T08:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。