論文の概要: Neural Collaborative Filtering Bandits via Meta Learning
- arxiv url: http://arxiv.org/abs/2201.13395v1
- Date: Mon, 31 Jan 2022 18:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 17:29:25.422350
- Title: Neural Collaborative Filtering Bandits via Meta Learning
- Title(参考訳): メタラーニングによるニューラルコラボレーティブフィルタリング帯域
- Authors: {Yikun Ban, Yunzhe Qi, Tianxin Wei, Jingrui He
- Abstract要約: ニューラルコラボレーティブ・フィルタリングバンドの探索による問題の導入と研究
メタラーナーを動的グループに適応させるメタバン(メタバンド)を提案する。
最後に,Meta-Banが6つの強いベースラインを大幅に上回ることを示す広範な実験を行った。
- 参考スコア(独自算出の注目度): 34.92363500523094
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contextual multi-armed bandits provide powerful tools to solve the
exploitation-exploration dilemma in decision making, with direct applications
in the personalized recommendation. In fact, collaborative effects among users
carry the significant potential to improve the recommendation. In this paper,
we introduce and study the problem by exploring `Neural Collaborative Filtering
Bandits', where the rewards can be non-linear functions and groups are formed
dynamically given different specific contents. To solve this problem, inspired
by meta-learning, we propose Meta-Ban (meta-bandits), where a meta-learner is
designed to represent and rapidly adapt to dynamic groups, along with a
UCB-based exploration strategy. Furthermore, we analyze that Meta-Ban can
achieve the regret bound of $\mathcal{O}(\sqrt{T \log T})$, improving a
multiplicative factor $\sqrt{\log T}$ over state-of-the-art related works. In
the end, we conduct extensive experiments showing that Meta-Ban significantly
outperforms six strong baselines.
- Abstract(参考訳): 文脈的マルチアームのバンディットは、意思決定における搾取・展開のジレンマを解決する強力なツールを提供し、パーソナライズドレコメンデーションに直接的な応用を提供する。
実際、ユーザ間の協調効果は、推奨を改善する大きな可能性を秘めている。
本稿では, 報酬が非線形関数となり, 群が動的に形成される「ニューラルコラボレーティブ・フィルタリング・バンディット」を探索し, この問題を考察する。
この問題を解決するために,メタ学習に触発されたメタバン(メタバンド)を提案する。メタリーナーは,ucbベースの探索戦略とともに,動的グループを表現し,迅速に適応するように設計されている。
さらに、Meta-Ban が $\mathcal{O}(\sqrt{T \log T})$ の後悔境界を達成でき、最先端の関連作品に対して乗法係数 $\sqrt{\log T}$ を改善することができる。
最後に,メタバンが6つの強いベースラインを著しく上回ることを示す広範な実験を行った。
関連論文リスト
- Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis [11.708969865308596]
本稿では,リニアコンテキスト帯域に対するMeta-TSを改良したMeta-TSLBアルゴリズムを提案する。
理論的にはMeta-TSLBを解析し、$O((m+log(m))sqrtnlog(n))$をベイズ後悔に縛り付ける。
そこで我々は,Meta-TSLBの一般化能力の実験と解析を行い,未知のインスタンスに適応する可能性を示した。
論文 参考訳(メタデータ) (2024-09-10T08:34:55Z) - Black box meta-learning intrinsic rewards for sparse-reward environments [0.0]
本研究では,RLエージェントが受信した学習信号がメタラーニングによってどのように改善されるかを検討する。
我々は,この手法をメタ学習の利点関数と外因性報酬を用いて分析・比較する。
開発したアルゴリズムはパラメトリックと非パラメトリックの双方で連続制御タスクの分布を評価する。
論文 参考訳(メタデータ) (2024-07-31T12:09:33Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - Graph Neural Bandits [49.85090929163639]
グラフニューラルネットワーク(GNN)によって強化されたユーザ間の協調性を生かしたグラフニューラルバンド(GNB)というフレームワークを提案する。
提案手法を改良するために,推定ユーザグラフ上の別々のGNNモデルを用いて,エクスプロイトと適応探索を行う。
論文 参考訳(メタデータ) (2023-08-21T15:57:57Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Designing Biological Sequences via Meta-Reinforcement Learning and
Bayesian Optimization [68.28697120944116]
メタ強化学習を用いて自己回帰生成モデルを訓練し、選択のための有望なシーケンスを提案する。
我々は,データのサブセットのサンプリングによって誘導されるMDPの分布に対する最適ポリシーを求める問題として,この問題を提起する。
このようなアンサンブルに対するメタラーニングは,報酬の過小評価に対して頑健であり,競争的な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-13T18:37:27Z) - Lookback for Learning to Branch [77.32867454769936]
Bipartite Graph Neural Networks (GNN) は、ディープラーニングに基づくMixed-Integer Linear Program (MILP) の重要コンポーネントであることが示されている。
近年の研究では、分岐とバウンド(B&B)の解法における分岐(可変選択)を置き換える上で、そのようなGNNの有効性が実証されている。
論文 参考訳(メタデータ) (2022-06-30T02:33:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。