Fugu-MT 論文翻訳(概要): Experts with Lower-Bounded Loss Feedback: A Unifying Framework

論文の概要: Experts with Lower-Bounded Loss Feedback: A Unifying Framework

arxiv url: http://arxiv.org/abs/2012.09537v1
Date: Thu, 17 Dec 2020 12:18:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-02 07:38:25.493464
Title: Experts with Lower-Bounded Loss Feedback: A Unifying Framework
Title（参考訳）: 低境界の損失フィードバックの専門家:統一フレームワーク
Authors: Eyal Gofer and Guy Gilboa
Abstract要約: 我々はexp3の修正版に対する最適な後悔の限界を証明し、アルゴリズムと境界をバンディットと全情報設定の両方に一般化する。この結果から,各ラウンドにおける専門家の任意のサブセットからのフィードバックを,グラフ構造化されたフィードバックで受けられるようにした。また,各損失に対する非自明な下限を許容することにより,一貫したレベルの部分的フィードバックを許容する。
参考スコア（独自算出の注目度）: 8.947188600472256
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The most prominent feedback models for the best expert problem are the full information and bandit models. In this work we consider a simple feedback model that generalizes both, where on every round, in addition to a bandit feedback, the adversary provides a lower bound on the loss of each expert. Such lower bounds may be obtained in various scenarios, for instance, in stock trading or in assessing errors of certain measurement devices. For this model we prove optimal regret bounds (up to logarithmic factors) for modified versions of Exp3, generalizing algorithms and bounds both for the bandit and the full-information settings. Our second-order unified regret analysis simulates a two-step loss update and highlights three Hessian or Hessian-like expressions, which map to the full-information regret, bandit regret, and a hybrid of both. Our results intersect with those for bandits with graph-structured feedback, in that both settings can accommodate feedback from an arbitrary subset of experts on each round. However, our model also accommodates partial feedback at the single-expert level, by allowing non-trivial lower bounds on each loss.
Abstract（参考訳）: 最高の専門家問題の最も顕著なフィードバックモデルは、完全な情報とバンディットモデルである。本研究では,各ラウンドにおいて,バンディットフィードバックに加えて,各専門家の損失率を低く抑えるために,双方を一般化した単純なフィードバックモデルを検討する。このような低い境界は、例えば株式取引や特定の測定装置の誤差を評価する際の様々なシナリオで得られる。このモデルでは、Exp3の修正版に対する最適後悔境界(対数係数まで)を証明し、バンディットと全情報設定の両方に対してアルゴリズムと境界を一般化する。我々の2段階の統合的後悔分析は、2段階の損失更新をシミュレートし、3つのヘッセン語やヘッセン語のような表現を強調します。この結果から,各ラウンドにおける専門家の任意のサブセットからのフィードバックを,グラフ構造化されたフィードバックで受けられるようにした。しかし,本モデルでは,各損失に対する非自明な下限を許容することで,単者レベルでの部分的なフィードバックを許容する。

関連論文リスト

Fusing Reward and Dueling Feedback in Stochastic Bandits [37.151617544329895]
本研究では,各決定ラウンドで両フィードバックタイプが収集される帯域における絶対(逆)フィードバックと相対(遅延)フィードバックの融合について検討する。我々は、効率の良いアルゴリズムが、各腕の報酬と決闘に基づく後悔のうち、より小さな部分しか生じないことを証明し、後悔の少ない境界を導出する。
論文参考訳（メタデータ） (2025-04-22T11:51:20Z)
Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文参考訳（メタデータ） (2024-07-24T09:23:22Z)
Non-stochastic Bandits With Evolving Observations [47.61533665679308]
既存のモデルを統一し一般化する新しいオンライン学習フレームワークを導入する。我々は,全情報設定と帯域幅設定の両方に対して,後悔の最小化アルゴリズムを提案する。我々のアルゴリズムは、多くの特別なケースにまたがる既知の後悔境界と一致し、以前にも知られていない境界も導入する。
論文参考訳（メタデータ） (2024-05-27T05:32:46Z)
Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文参考訳（メタデータ） (2024-04-16T17:59:55Z)
Borda Regret Minimization for Generalized Linear Dueling Bandits [65.09919504862496]
本稿では,ボルダスコアが最も高い項目を識別することを目的とした,デュエルバンディットに対するボルダ後悔最小化問題について検討する。本稿では,多くの既存モデルをカバーする一般化線形デュエルバンドモデルのリッチクラスを提案する。我々のアルゴリズムは$tildeO(d2/3 T2/3)$ regretを達成し、これも最適である。
論文参考訳（メタデータ） (2023-03-15T17:59:27Z)
Doubly Adversarial Federated Bandits [7.23389716633927]
本稿では,複数のエージェントが通信ネットワークを介して協調する,非確率的フェデレーション型多武装バンディット問題について検討する。我々のアルゴリズムは、Cesa-Bianchi et alで提案されたオープンな質問に対して肯定的な答えを与える。
論文参考訳（メタデータ） (2023-01-22T22:36:43Z)
Offline congestion games: How feedback type affects data coverage requirement [53.83345471268163]
情報開示を減らした3種類のフィードバックについて検討する。ゲームレベルのフィードバック設定ではエージェントレベルのフィードバック設定のカバレッジ仮定が不十分であることを示す。本研究は,オフラインの混雑ゲームに関する最初の研究である。
論文参考訳（メタデータ） (2022-10-24T16:49:16Z)
Second Order Regret Bounds Against Generalized Expert Sequences under Partial Bandit Feedback [0.0]
本稿では,部分帯域フィードバック設定下でのエキスパートアドバイスの問題について検討し,逐次ミニマックス最適アルゴリズムを作成する。本アルゴリズムは,従来の帯域幅フィードバックとは対照的に,逆向きに損失を明らかにすることのできる,より一般的な部分的監視設定で動作する。
論文参考訳（メタデータ） (2022-04-13T22:48:12Z)
Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文参考訳（メタデータ） (2021-05-25T10:08:41Z)
Bandits with Knapsacks beyond the Worst-Case [87.54497614804409]
最悪の場合の視点を超えた3つの結果を提示します。第一に、対数的、インスタンス依存的後悔率の完全な特徴を与える上限と下限を提供する。第二に、与えられたラウンドにおけるアルゴリズムの性能を追跡するBwKの「簡単な後悔」を考察し、数ラウンドを除いては小さくないことを示す。
論文参考訳（メタデータ） (2020-02-01T18:50:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。