論文の概要: A Bit Better? Quantifying Information for Bandit Learning
- arxiv url: http://arxiv.org/abs/2102.09488v1
- Date: Thu, 18 Feb 2021 17:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 16:57:54.674431
- Title: A Bit Better? Quantifying Information for Bandit Learning
- Title(参考訳): ちょっと良くなった?
バンディット学習のための定量情報
- Authors: Adithya M. Devraj, Benjamin Van Roy, Kuang Xu
- Abstract要約: 情報比率は、エージェントが探索と搾取のバランスをとる効果を評価するためのアプローチを提供する。
最近の研究は、特により厳しい後悔の境界に到達するためにバンディット学習アルゴリズムの分析に使用するための代替情報対策の考察に触発されました。
このような代替案による情報の定量化が,情報指向サンプリングの実現性能を向上させるかどうかを検討する。
- 参考スコア(独自算出の注目度): 24.943571034827297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The information ratio offers an approach to assessing the efficacy with which
an agent balances between exploration and exploitation. Originally, this was
defined to be the ratio between squared expected regret and the mutual
information between the environment and action-observation pair, which
represents a measure of information gain. Recent work has inspired
consideration of alternative information measures, particularly for use in
analysis of bandit learning algorithms to arrive at tighter regret bounds. We
investigate whether quantification of information via such alternatives can
improve the realized performance of information-directed sampling, which aims
to minimize the information ratio.
- Abstract(参考訳): 情報比率は、エージェントが探索と搾取のバランスをとる効果を評価するためのアプローチを提供する。
当初、これは2乗の期待された後悔と環境と行動観察のペアの間の相互情報との比率として定義され、これは情報獲得の尺度を表す。
最近の研究は、特により厳しい後悔の境界に到達するためにバンディット学習アルゴリズムの分析に使用するための代替情報対策の考察に触発されました。
情報の定量化により,情報指向サンプリングの実現性能が向上するかどうかを検討し,情報比の最小化を目指す。
関連論文リスト
- Quantifying User Coherence: A Unified Framework for Cross-Domain Recommendation Analysis [69.37718774071793]
本稿では,レコメンデーションシステムを理解するための新しい情報理論手法を提案する。
9つのデータセットで7つのレコメンデーションアルゴリズムを評価し、測定値と標準的なパフォーマンス指標の関係を明らかにする。
論文 参考訳(メタデータ) (2024-10-03T13:02:07Z) - Leveraging Superfluous Information in Contrastive Representation Learning [0.0]
従来のコントラスト学習フレームワークには,過剰な情報が存在することを示す。
我々は,予測情報と過剰情報の両方を線形に組み合わせることで,ロバストな表現を学習するための新しい目的,すなわちSuperInfoを設計する。
我々は、画像分類、オブジェクト検出、インスタンス分割タスクにおいて、従来のコントラスト学習アプローチよりも優れていることをしばしば示している。
論文 参考訳(メタデータ) (2024-08-19T16:21:08Z) - Collaborative Knowledge Infusion for Low-resource Stance Detection [83.88515573352795]
姿勢検出モデルを支援するために、ターゲット関連の知識がしばしば必要である。
低リソース姿勢検出タスクに対する協調的知識注入手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T08:32:14Z) - dugMatting: Decomposed-Uncertainty-Guided Matting [83.71273621169404]
そこで本稿では, 明確に分解された不確かさを探索し, 効率よく効率よく改善する, 分解不確実性誘導型マッチングアルゴリズムを提案する。
提案したマッチングフレームワークは,シンプルで効率的なラベリングを用いて対話領域を決定する必要性を緩和する。
論文 参考訳(メタデータ) (2023-06-02T11:19:50Z) - Scalable Infomin Learning [39.77171117174905]
インフォミン学習は、特定のターゲットについて非形式的でありながら、高いユーティリティで表現を学習することを目的としている。
情報マイニングの最近の研究は、主に相互情報を推定するためにニューラルネットワークをトレーニングする敵のトレーニングを使用している。
本稿では,情報交換のための新しいプロキシ・メトリックを用いた情報マイニング手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T14:40:25Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - An Information Minimization Based Contrastive Learning Model for
Unsupervised Sentence Embeddings Learning [19.270283247740664]
教師なし文表現学習のための情報最小化に基づくコントラスト学習(InforMin-CL)モデルを提案する。
情報最小化は単純なコントラストと再構成の目的によって達成できる。
論文 参考訳(メタデータ) (2022-09-22T12:07:35Z) - Information-Bottleneck-Based Behavior Representation Learning for
Multi-agent Reinforcement learning [16.024781473545055]
深層強化学習では、他のエージェントの十分かつコンパクトな情報を抽出し、アルゴリズムの効率的な収束と拡張性を達成することが重要である。
本稿では,多エージェント強化学習(IBORM)のための他のエージェントの行動表現学習を行い,低次元マッピングエンコーダを明示的に求める。
論文 参考訳(メタデータ) (2021-09-29T04:22:49Z) - A Bayesian Framework for Information-Theoretic Probing [51.98576673620385]
我々は、探索は相互情報を近似するものとみなすべきであると論じる。
これは、表現が元の文とターゲットタスクに関する全く同じ情報をエンコードしているというかなり直感的な結論を導いた。
本稿では,ベイズ的相互情報(Bayesian mutual information)と呼ぶものを測定するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-08T18:08:36Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。