論文の概要: Hypothesis Transfer in Bandits by Weighted Models
- arxiv url: http://arxiv.org/abs/2211.07387v1
- Date: Mon, 14 Nov 2022 14:13:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 19:17:45.932876
- Title: Hypothesis Transfer in Bandits by Weighted Models
- Title(参考訳): 重み付きモデルによるバンディットの仮説伝達
- Authors: Steven Bilaj, Sofien Dhouib, Setareh Maghsudi
- Abstract要約: 我々は,仮説伝達学習の設定において,文脈的マルチアームバンディットの問題を考える。
転送が望まれる場合に,古典的リニア UCB に対する後悔の軽減を示す再重み付け方式を示す。
さらに,この手法を任意の量のソースモデルに拡張し,各ステップでどのモデルが好まれるかをアルゴリズムが決定する。
- 参考スコア(独自算出の注目度): 8.759884299087835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of contextual multi-armed bandits in the setting of
hypothesis transfer learning. That is, we assume having access to a previously
learned model on an unobserved set of contexts, and we leverage it in order to
accelerate exploration on a new bandit problem. Our transfer strategy is based
on a re-weighting scheme for which we show a reduction in the regret over the
classic Linear UCB when transfer is desired, while recovering the classic
regret rate when the two tasks are unrelated. We further extend this method to
an arbitrary amount of source models, where the algorithm decides which model
is preferred at each time step. Additionally we discuss an approach where a
dynamic convex combination of source models is given in terms of a biased
regularization term in the classic LinUCB algorithm. The algorithms and the
theoretical analysis of our proposed methods substantiated by empirical
evaluations on simulated and real-world data.
- Abstract(参考訳): 仮説伝達学習の設定において,文脈的多腕バンディットの問題を考える。
すなわち、観測されていないコンテキストのセット上で、以前に学習したモデルにアクセスすることを想定し、新しいバンディット問題の探索を加速するためにそれを活用する。
転送戦略は、2つのタスクが無関係な場合の古典的後悔率を回復しながら、転送が望まれる場合の古典的リニアCBに対する後悔の低減を示す再重み付け方式に基づいている。
さらに,この手法を任意の量のソースモデルに拡張し,各ステップでどのモデルが好まれるかをアルゴリズムが決定する。
さらに、古典的なlinucbアルゴリズムにおいて、ソースモデルの動的凸結合がバイアス付き正規化項で与えられるアプローチについても論じる。
シミュレーションおよび実世界のデータに対する経験的評価により,提案手法のアルゴリズムと理論的解析を行った。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning [37.387280102209274]
オフライン強化学習は、事前に収集されたデータセットからエージェントをトレーニング可能にすることを目的としている。
モデルベースの手法は、エージェントが学習されたダイナミックスモデルでロールアウトを介して追加の合成データを収集できるようにすることで、ソリューションを提供する。
しかし、学習したダイナミックスモデルを真のエラーフリーなダイナミックスに置き換えると、既存のモデルベースのメソッドは完全に失敗する。
本稿では, エッジ・オブ・リーチ問題に直接対処する単純で堅牢な手法であるReach-Aware Value Learning (RAVL)を提案する。
論文 参考訳(メタデータ) (2024-02-19T20:38:00Z) - Coverage-Validity-Aware Algorithmic Recourse [23.643366441803796]
本稿では,モデルシフトに対するロバスト性を示すモデルに依存しない談話を生成する新しい枠組みを提案する。
筆者らのフレームワークはまず,非線形(ブラックボックス)モデルのカバレッジを意識した線形サロゲートを構築する。
我々の代理は近似超平面を直感的に推し進め、頑健なだけでなく解釈可能なレコースも容易にすることを示した。
論文 参考訳(メタデータ) (2023-11-19T15:21:49Z) - Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A Provably Efficient Model-Free Posterior Sampling Method for Episodic
Reinforcement Learning [50.910152564914405]
強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限される。
本稿では,理論的保証を伴うより一般的な補足的強化学習問題に適用可能な,後部サンプリングのモデルフリーな新しい定式化を提案する。
論文 参考訳(メタデータ) (2022-08-23T12:21:01Z) - Online Contextual Decision-Making with a Smart Predict-then-Optimize
Method [4.061135251278187]
資源制約を考慮したオンライン文脈決定問題について検討する。
本稿では,「スマート予測-then-(SPO)」法に基づく予測ステップと,ミラー降下に基づく2つの更新ステップを混合するアルゴリズムを提案する。
提案手法の全体的な収束速度はオンラインミラー降下の$mathcalO(T-1/2)$収束に依存することを示す。
論文 参考訳(メタデータ) (2022-06-15T06:16:13Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Composing Normalizing Flows for Inverse Problems [89.06155049265641]
本稿では,2つの流れモデルの合成として,対象条件を推定する近似推論フレームワークを提案する。
本手法は,様々な逆問題に対して評価し,不確実性のある高品質な試料を作製することを示した。
論文 参考訳(メタデータ) (2020-02-26T19:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。