論文の概要: Partition Tree Weighting for Non-Stationary Stochastic Bandits
- arxiv url: http://arxiv.org/abs/2502.19325v1
- Date: Wed, 26 Feb 2025 17:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:58:51.994453
- Title: Partition Tree Weighting for Non-Stationary Stochastic Bandits
- Title(参考訳): 非定常確率帯域に対する分割木重み付け
- Authors: Joel Veness, Marcus Hutter, Andras Gyorgy, Jordi Grau-Moya,
- Abstract要約: 本稿では、インタラクションデータ、すなわち観測とインターリーブされたアクションを持つデータストリームに対するユニバーサルソースコーディングの一般化について考察する。
我々のゴールは、普遍的かつ汎用的に制御ポリシとして使用できる符号化分布を構築することです。
- 参考スコア(独自算出の注目度): 16.017669823609964
- License:
- Abstract: This paper considers a generalisation of universal source coding for interaction data, namely data streams that have actions interleaved with observations. Our goal will be to construct a coding distribution that is both universal \emph{and} can be used as a control policy. Allowing for action generation needs careful treatment, as naive approaches which do not distinguish between actions and observations run into the self-delusion problem in universal settings. We showcase our perspective in the context of the challenging non-stationary stochastic Bernoulli bandit problem. Our main contribution is an efficient and high performing algorithm for this problem that generalises the Partition Tree Weighting universal source coding technique for passive prediction to the control setting.
- Abstract(参考訳): 本稿では、インタラクションデータ、すなわち観測とインターリーブされたアクションを持つデータストリームに対するユニバーサルソースコーディングの一般化について考察する。
我々のゴールは、ユニバーサルな \emph{and} を制御ポリシーとして使用できる符号化分布を構築することである。
行動生成を許容するには、行動と観察を区別しないナイーブなアプローチが、普遍的な設定で自己評価問題に陥るため、慎重に対処する必要がある。
我々は,非定常確率的ベルヌーイバンディット問題(Bernoulli bandit problem)の文脈において,我々の視点を示す。
我々の主な貢献は、制御設定に対する受動的予測のための分割木重み付けユニバーサルソース符号化手法を一般化した、この問題に対する効率的かつ高性能なアルゴリズムである。
関連論文リスト
- Controlled LLM Decoding via Discrete Auto-regressive Biasing [9.843359827321194]
制御されたテキスト生成は、大きな言語モデルの出力に対してユーザ定義の制約を強制することができる。
離散テキスト領域で完全に動作しながら勾配を利用する制御復号アルゴリズムである離散自己回帰バイアス法を提案する。
提案手法は,計算コストの低減を図るとともに,制約満足度を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-06T00:14:43Z) - Gaussian Mixture Vector Quantization with Aggregated Categorical Posterior [5.862123282894087]
ベクトル量子化変分オートエンコーダ(VQ-VAE)を導入する。
VQ-VAEは、離散埋め込みを潜時として使用する変分オートエンコーダの一種である。
GM-VQは,手工芸品に頼らずに,コードブックの利用率を向上し,情報損失を低減する。
論文 参考訳(メタデータ) (2024-10-14T05:58:11Z) - PCL-Indexability and Whittle Index for Restless Bandits with General Observation Models [0.0]
我々は、任意の初期信念から始まる可算な信念状態空間を持つレスレス・バンディットとして問題を定式化する。
有限状態問題に対するNino-Mora と Bertsimas の AG アルゴリズムを適用可能な問題に変換する近似法を提案する。
論文 参考訳(メタデータ) (2023-07-06T14:56:13Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence
Embedding [51.48582649050054]
符号化文の特徴間の相関関係を解消する表現正規化手法を提案する。
またNystromカーネル近似法であるKernel-Whiteningを提案する。
実験により,Kernel-Whiteningは分布内精度を維持しつつ,分布外データセット上でのBERTの性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-10-14T05:56:38Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z) - Jacobian Regularization for Mitigating Universal Adversarial
Perturbations [2.9465623430708905]
UAP(Universal Adversarial Perturbations)は、大規模なデータセットでニューラルネットワークを騙すことができる入力摂動である。
データ依存ヤコビアンのノルムに基づくUPAの有効性の上限を導出する。
論文 参考訳(メタデータ) (2021-04-21T11:00:21Z) - The Role of Mutual Information in Variational Classifiers [47.10478919049443]
クロスエントロピー損失を訓練した符号化に依存する分類器の一般化誤差について検討する。
我々は、一般化誤差が相互情報によって境界付けられた状態が存在することを示す一般化誤差に境界を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:27:57Z) - Total Deep Variation: A Stable Regularizer for Inverse Problems [71.90933869570914]
本稿では,データ駆動型汎用全深度変動正規化器について紹介する。
コアでは、畳み込みニューラルネットワークが複数のスケールや連続したブロックで局所的な特徴を抽出する。
我々は多数の画像処理タスクに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-15T21:54:15Z) - Polynomial-Time Exact MAP Inference on Discrete Models with Global
Dependencies [83.05591911173332]
ジャンクションツリーアルゴリズムは、実行時の保証と正確なMAP推論のための最も一般的な解である。
本稿では,ノードのクローン化による新たなグラフ変換手法を提案する。
論文 参考訳(メタデータ) (2019-12-27T13:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。