Fugu-MT 論文翻訳(概要): Rate-Optimal Contextual Online Matching Bandit

論文の概要: Rate-Optimal Contextual Online Matching Bandit

arxiv url: http://arxiv.org/abs/2205.03699v1
Date: Sat, 7 May 2022 18:28:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-10 14:36:59.377770
Title: Rate-Optimal Contextual Online Matching Bandit
Title（参考訳）: レート最適コンテキストオンラインマッチング帯域
Authors: Yuantong Li, Chi-hua Wang, Guang Cheng, Will Wei Sun
Abstract要約: 我々は、マッチング決定における動的嗜好を可能にする新しいコンテキストオンラインマッチング圧縮(COMBO)について検討する。本稿では,CC-ETCがサブ線形後悔上界O(log(T))を達成し,一致した下界を証明し,レート最適化アルゴリズムであることを示す。
参考スコア（独自算出の注目度）: 19.317374572079363
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Two-sided online matching platforms have been employed in various markets. However, agents' preferences in present market are usually implicit and unknown and must be learned from data. With the growing availability of side information involved in the decision process, modern online matching methodology demands the capability to track preference dynamics for agents based on their contextual information. This motivates us to consider a novel Contextual Online Matching Bandit prOblem (COMBO), which allows dynamic preferences in matching decisions. Existing works focus on multi-armed bandit with static preference, but this is insufficient: the two-sided preference changes as along as one-side's contextual information updates, resulting in non-static matching. In this paper, we propose a Centralized Contextual - Explore Then Commit (CC-ETC) algorithm to adapt to the COMBO. CC-ETC solves online matching with dynamic preference. In theory, we show that CC-ETC achieves a sublinear regret upper bound O(log(T)) and is a rate-optimal algorithm by proving a matching lower bound. In the experiments, we demonstrate that CC-ETC is robust to variant preference schemes, dimensions of contexts, reward noise levels, and contexts variation levels.
Abstract（参考訳）: 両面のオンラインマッチングプラットフォームは様々な市場で採用されている。しかし、現在の市場でのエージェントの好みは通常暗黙的で未知であり、データから学ぶ必要がある。意思決定プロセスに関わるサイド情報の可用性が高まる中、現代のオンラインマッチング手法では、文脈情報に基づいてエージェントの嗜好ダイナミクスを追跡する能力が要求される。これは、マッチング決定における動的好みを可能にする、新しいContextual Online Matching Bandit prOblem (COMBO)を考える動機となっている。既存の作業は静的な選好を伴うマルチアームバンディットに重点を置いているが、これは不十分である。本稿では,COMBOに適応するためのCC-ETC(Centralized ContextualExplore Then Commit)アルゴリズムを提案する。 CC-ETCは動的好みでオンラインマッチングを解決する。理論的には、CC-ETC はサブ線形後悔上界 O(log(T)) を達成し、一致した下界を証明してレート最適化アルゴリズムであることを示す。実験では, CC-ETCは, 異なる選好スキーム, 文脈次元, 報酬雑音レベル, 文脈変動レベルに対して堅牢であることを示した。

関連論文リスト

Efficient and Effective Query Context-Aware Learning-to-Rank Model for Sequential Recommendation [0.027961972519572442]
本稿では、因果的言語モデリング手法を用いて訓練されたトランスフォーマーにクエリコンテキストを組み込むための様々な戦略を解析する。そこで本稿では,アイテムシーケンスをアテンションメカニズム内でクエリコンテキストと効果的に融合する手法を提案する。
論文参考訳（メタデータ） (2025-07-04T19:50:01Z)
RankPO: Preference Optimization for Job-Talent Matching [7.385902340910447]
大規模言語モデル(LLM)のための2段階トレーニングフレームワークを提案する。最初の段階では、実際のマッチングルールから構築されたデータセット上でモデルをトレーニングするために、対照的な学習アプローチが使用される。第2段階では、AIで計算したペアの選好とモデルを整合させるために、直接選好最適化(DPO)にインスパイアされた、新しい選好に基づく微調整手法を導入する。
論文参考訳（メタデータ） (2025-03-13T10:14:37Z)
The Devil is in the Spurious Correlations: Boosting Moment Retrieval with Dynamic Learning [49.40254251698784]
本稿では,モーメント検索のための動的学習手法を提案する。まず、クエリーモーメントの動的コンテキストを構築するための新しいビデオ合成手法を提案する。第2に、背景との過度な関連を緩和するために、テキストと力学の相互作用を組み込むことで、時間的に表現を強化する。
論文参考訳（メタデータ） (2025-01-13T13:13:06Z)
An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。 2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文参考訳（メタデータ） (2024-09-04T14:36:20Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文参考訳（メタデータ） (2023-12-11T07:36:45Z)
Continuous Time Analysis of Dynamic Matching in Heterogeneous Networks [0.0]
常微分方程式(ODE)モデルを確立することによって動的マッチングをモデル化する新しい手法を提案する。ヘテロジニアスネットワークにおいて,整合性のあるハード・ト・マッチ・エージェントのマッチングを容易・ト・マッチ・エージェントよりも優先する2つのアルゴリズムについて検討した。この結果から,エージェントの相反する目標間のトレードオフを迅速かつ最適に示し,実世界の動的マッチングシステムの設計に関する洞察を提供する。
論文参考訳（メタデータ） (2023-02-20T04:45:13Z)
Fully Dynamic Online Selection through Online Contention Resolution Schemes [15.149188998019186]
逆/確率的環境下でのオンライン選択の完全動的問題について検討する。対戦環境におけるオンライン選択問題に対するアプローチは、オンラインコンテント解決スキームの概念によって与えられる。
論文参考訳（メタデータ） (2023-01-08T19:35:11Z)
Learn to Match with No Regret: Reinforcement Learning in Markov Matching Markets [151.03738099494765]
我々は、市場の両側でプランナーと戦略エージェントのセットを含むマルコフマッチング市場について検討する。本稿では,楽観的な値反復と最大重みマッチングを組み合わせた強化学習フレームワークを提案する。我々は,アルゴリズムがサブ線形後悔を実現することを証明した。
論文参考訳（メタデータ） (2022-03-07T19:51:25Z)
Contrastive Self-supervised Sequential Recommendation with Robust Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文参考訳（メタデータ） (2021-08-14T07:15:25Z)
Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-15T10:08:39Z)
Learning to Accelerate Heuristic Searching for Large-Scale Maximum Weighted b-Matching Problems in Online Advertising [51.97494906131859]
バイパルタイトbマッチングはアルゴリズム設計の基本であり、経済市場や労働市場などに広く適用されている。既存の正確で近似的なアルゴリズムは、通常そのような設定で失敗する。我々は、以前の事例から学んだ知識を活用して、新しい問題インスタンスを解決するtextttNeuSearcherを提案する。
論文参考訳（メタデータ） (2020-05-09T02:48:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。