論文の概要: Combinatorial Allocation Bandits with Nonlinear Arm Utility
- arxiv url: http://arxiv.org/abs/2603.07005v1
- Date: Sat, 07 Mar 2026 02:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.606285
- Title: Combinatorial Allocation Bandits with Nonlinear Arm Utility
- Title(参考訳): 非線形アーム機能を有するコンビネーションアロケーションバンド
- Authors: Yuki Shibukawa, Koichi Tanaka, Yuta Saito, Shinji Ito,
- Abstract要約: 本稿では,「腕の満足度」という概念を取り入れた,新たなオンライン学習問題である Combinatorial Allocation Bandits (CAB)を提案する。
従来の作業とは異なり、学習者の目的は、肯定的なフィードバックの数を最大化するのではなく、腕の満足度を最大化することである。
提案手法は, 特殊ケースの既設下界に近似した, ほぼ遺残上界を実現する上信頼度有界アルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 37.64693919880475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A matching platform is a system that matches different types of participants, such as companies and job-seekers. In such a platform, merely maximizing the number of matches can result in matches being concentrated on highly popular participants, which may increase dissatisfaction among other participants, such as companies, and ultimately lead to their churn, reducing the platform's profit opportunities. To address this issue, we propose a novel online learning problem, Combinatorial Allocation Bandits (CAB), which incorporates the notion of *arm satisfaction*. In CAB, at each round $t=1,\dots,T$, the learner observes $K$ feature vectors corresponding to $K$ arms for each of $N$ users, assigns each user to an arm, and then observes feedback following a generalized linear model (GLM). Unlike prior work, the learner's objective is not to maximize the number of positive feedback, but rather to maximize the arm satisfaction. For CAB, we provide an upper confidence bound algorithm that achieves an approximate regret upper bound, which matches the existing lower bound for the special case. Furthermore, we propose a TS algorithm and provide an approximate regret upper bound. Finally, we conduct experiments on synthetic data to demonstrate the effectiveness of the proposed algorithms compared to other methods.
- Abstract(参考訳): マッチングプラットフォームは、企業や求職者など、さまざまなタイプの参加者にマッチするシステムである。
このようなプラットフォームでは、試合数を最大化すれば、人気の高い参加者に試合が集中することになり、企業など他の参加者の不満が増し、最終的にはその混乱を招き、プラットフォームの利益機会が減少する可能性がある。
この問題に対処するため,我々は,新しいオンライン学習問題である Combinatorial Allocation Bandits (CAB) を提案する。
CABでは、各ラウンド$t=1,\dots,T$で、学習者は、$N$ユーザのそれぞれに対して$K$アームに対応する$K$特徴ベクトルを観察し、各ユーザをアームに割り当て、一般化線形モデル(GLM)に従ってフィードバックを観察する。
従来の作業とは異なり、学習者の目的は、肯定的なフィードバックの数を最大化するのではなく、腕の満足度を最大化することである。
CABの場合、我々は、特殊ケースの既存の下界と一致する近似的後悔の上界を達成する上信頼境界アルゴリズムを提供する。
さらに,TSアルゴリズムを提案する。
最後に,他の手法と比較して,提案アルゴリズムの有効性を示すために,合成データの実験を行った。
関連論文リスト
- Batched Stochastic Matching Bandits [43.651070266360954]
本稿では,MNL選択モデルに基づくマッチングのための新しい帯域幅フレームワークを提案する。
私たちの設定では、一方の$N$エージェントは他方の$K$アームに割り当てられます。
目的は、すべてのエージェントで成功した試合から累積収入を最大化することで、後悔を最小限に抑えることである。
論文 参考訳(メタデータ) (2025-09-04T13:16:32Z) - Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。
この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。
我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文 参考訳(メタデータ) (2025-02-19T06:37:37Z) - Adaptively Learning to Select-Rank in Online Platforms [34.258659206323664]
本研究は、異種ユーザの候補プールからアイテムを適応的にランク付けすることの課題に対処する。
本研究では,多様なユーザの好みや項目位置の影響を考慮に入れたユーザ応答モデルを構築した。
シミュレーションと実世界の両方のデータセットで実施された実験は、アルゴリズムがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-07T15:33:48Z) - Cost Aware Best Arm Identification [13.380383930882784]
emphCost Aware Best Arm Identification (CABAI)と呼ぶ。
平方根規則に基づくemphChernoff Overlap (CO)と呼ばれる単純なアルゴリズムを提案する。
この結果から,不均一な動作コストを無視すると,実行時の準最適性が得られ,また,簡単なアルゴリズムにより,幅広い問題に対してほぼ最適性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-26T16:27:08Z) - Misalignment, Learning, and Ranking: Harnessing Users Limited Attention [16.74322664734553]
本稿では,最適ベンチマークに対する後悔を解消するオンラインアルゴリズムの設計について検討する。
逆オンライン線形最適化の標準的なアルゴリズムは、$O(sqrtT)$ regretのペイオフ時間アルゴリズムを得るためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2024-02-21T18:52:20Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Contextual Combinatorial Bandits with Changing Action Sets via Gaussian Processes [8.919345630832366]
本稿では,アクションセットと時間変化によるベースアームの可利用性に関するコンテキスト的帯域幅問題について考察する。
我々は,カーネル上信頼境界(O'CLOK-UCB)を用いた最適組合せ学習と最適化というアルゴリズムを提案する。
アルゴリズムを劇的に高速化するために,スパースGPを用いたO'CLOK-UCBの変種を提案する。
論文 参考訳(メタデータ) (2021-10-05T18:02:10Z) - Near-Optimal Regret Bounds for Contextual Combinatorial Semi-Bandits
with Linear Payoff Functions [53.77572276969548]
我々は、C$2$UCBアルゴリズムが分割マトロイド制約に対して最適な後悔結合$tildeO(dsqrtkT + dk)$を有することを示した。
一般的な制約に対して,C$2$UCBアルゴリズムで腕の報酬推定値を変更するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-20T04:29:18Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。