論文の概要: Blessings of Multiple Good Arms in Multi-Objective Linear Bandits
- arxiv url: http://arxiv.org/abs/2602.12901v1
- Date: Fri, 13 Feb 2026 13:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.953396
- Title: Blessings of Multiple Good Arms in Multi-Objective Linear Bandits
- Title(参考訳): 多目的リニアバンドにおける複数のグッドアームの祝福
- Authors: Heesang Ann, Min-hwan Oh,
- Abstract要約: しかし,ほとんどのラウンドにおいて,アクションを優雅に選択する単純なアルゴリズムは,高い性能を達成できることを示す。
本稿では,多目的バンディットアルゴリズムの公正度を厳密に分析する原理的アプローチとして,有効公正性のためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.46701416812218
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The multi objective bandit setting has traditionally been regarded as more complex than the single objective case, as multiple objectives must be optimized simultaneously. In contrast to this prevailing view, we demonstrate that when multiple good arms exist for multiple objectives, they can induce a surprising benefit, implicit exploration. Under this condition, we show that simple algorithms that greedily select actions in most rounds can nonetheless achieve strong performance, both theoretically and empirically. To our knowledge, this is the first study to introduce implicit exploration in both multi objective and parametric bandit settings without any distributional assumptions on the contexts. We further introduce a framework for effective Pareto fairness, which provides a principled approach to rigorously analyzing fairness of multi objective bandit algorithms.
- Abstract(参考訳): 多目的バンディット設定は伝統的に、複数の目的を同時に最適化する必要があるため、単一の目的のケースよりも複雑と見なされてきた。
この一般的な見方とは対照的に、複数の目的のために複数の優れた武器が存在する場合、彼らは驚くべき利益、暗黙の探索を導き出すことができることを実証する。
この条件下では,ほとんどのラウンドでのアクションを欲求的に選択する単純なアルゴリズムは,理論上も経験的にも,強い性能を達成できることを示す。
我々の知る限りでは、多目的およびパラメトリックバンディット設定の両方において、文脈の分布的な仮定を伴わずに暗黙的な探索を導入する最初の研究である。
さらに,多目的バンディットアルゴリズムの妥当性を厳密に分析するための原理的アプローチとして,効果的なパレートフェアネスの枠組みを導入する。
関連論文リスト
- Empirical Bayesian Multi-Bandit Learning [8.980876474818153]
文脈的包帯におけるマルチタスク学習は、大きな研究関心を集めている。
本稿では,様々な帯域で学習する階層型ベイズフレームワークを提案する。
提案アルゴリズムは既存の手法に比べて累積的後悔度が低いことを示す。
論文 参考訳(メタデータ) (2025-10-30T09:08:07Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。
最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。
本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文 参考訳(メタデータ) (2025-01-23T12:28:09Z) - Multi-task Representation Learning for Pure Exploration in Bilinear
Bandits [13.773838574776338]
バイリニア・バンディットにおける純粋探索問題に対するマルチタスク表現学習について検討した。
バイリニア・バンディットでは、アクションは2つの異なる実体タイプから一対の腕の形を取る。
論文 参考訳(メタデータ) (2023-11-01T06:30:45Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - The Combinatorial Multi-Bandit Problem and its Application to Energy
Management [2.236663830879273]
本稿では,エネルギーシステム管理の応用を動機とした,コンビニアルマルチバンド問題について考察する。
エネルギー管理アプリケーションのために,マルチアームバンディットの探索原理と数理プログラミングを組み合わせたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-30T13:42:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。