論文の概要: Mode Estimation with Partial Feedback
- arxiv url: http://arxiv.org/abs/2402.13079v1
- Date: Tue, 20 Feb 2024 15:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:41:05.177846
- Title: Mode Estimation with Partial Feedback
- Title(参考訳): 部分フィードバックによるモード推定
- Authors: Charles Arnal, Vivien Cabannes, Vianney Perchet
- Abstract要約: 弱教師付き・能動的学習の中核的な側面を簡単な問題で定式化する。
エントロピー符号化が部分フィードバックから最適な情報取得を可能にすることを示す。
- 参考スコア(独自算出の注目度): 20.426429576184145
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The combination of lightly supervised pre-training and online fine-tuning has
played a key role in recent AI developments. These new learning pipelines call
for new theoretical frameworks. In this paper, we formalize core aspects of
weakly supervised and active learning with a simple problem: the estimation of
the mode of a distribution using partial feedback. We show how entropy coding
allows for optimal information acquisition from partial feedback, develop
coarse sufficient statistics for mode identification, and adapt bandit
algorithms to our new setting. Finally, we combine those contributions into a
statistically and computationally efficient solution to our problem.
- Abstract(参考訳): 軽い教師付き事前トレーニングとオンラインの微調整の組み合わせは、最近のAI開発において重要な役割を果たしている。
これらの新しい学習パイプラインは、新しい理論フレームワークを求めている。
本稿では,弱教師付き・アクティブ学習の中核的側面を,部分的フィードバックを用いた分布モードの推定という単純な問題で定式化する。
エントロピー符号化が部分フィードバックから最適な情報取得を可能にし、モード識別のための粗い統計量を開発し、新しい設定にバンディットアルゴリズムを適用する方法を示す。
最後に,これらの貢献を統計的かつ計算効率の良い解決法にまとめる。
関連論文リスト
- Adaptive Training Distributions with Scalable Online Bilevel
Optimization [26.029033134519604]
Webスケールコーパスで事前訓練された大規模なニューラルネットワークは、現代の機械学習の中心である。
本研究は,対象とする試験条件を反映したデータのサンプルが少なければ,事前学習分布を変更することを検討する。
本稿では、この設定をオンライン二段階最適化問題として最近定式化したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T18:01:29Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - End-to-End Learning for Stochastic Optimization: A Bayesian Perspective [9.356870107137093]
最適化におけるエンド・ツー・エンド・ラーニングの原則的アプローチを開発する。
本稿では,標準エンドツーエンド学習アルゴリズムがベイズ解釈を認め,ベイズ後の行動地図を訓練することを示す。
次に、意思決定マップの学習のための新しいエンドツーエンド学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-07T05:55:45Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Harnessing Heterogeneity: Learning from Decomposed Feedback in Bayesian
Modeling [68.69431580852535]
サブグループフィードバックを取り入れた新しいGPレグレッションを導入する。
我々の修正された回帰は、以前のアプローチと比べて、明らかにばらつきを減らし、したがってより正確な後続を減らした。
我々は2つの異なる社会問題に対してアルゴリズムを実行する。
論文 参考訳(メタデータ) (2021-07-07T03:57:22Z) - Adaptive Sampling for Minimax Fair Classification [40.936345085421955]
最適化の原理に基づく適応型サンプリングアルゴリズムを提案し,その性能に関する理論的境界を導出する。
特定の問題のクラスに対してアルゴリズム独立なローバウンドを導出することにより,適応スキームによる性能は一般に改善できないことを示した。
論文 参考訳(メタデータ) (2021-03-01T04:58:27Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Learning the Travelling Salesperson Problem Requires Rethinking
Generalization [9.176056742068813]
トラベリングセールスパーソン問題(TSP)のようなグラフ最適化問題に対するニューラルネットワークソルバのエンドツーエンドトレーニングは近年,関心が高まっている。
最先端の学習駆動アプローチは、自明に小さなサイズで訓練された場合、古典的な解法と密接に関係するが、実践的な規模で学習ポリシーを大規模に一般化することはできない。
この研究は、トレーニングで見られるものよりも大きいインスタンスへの一般化を促進する、原則化されたバイアス、モデルアーキテクチャ、学習アルゴリズムを特定するために、最近の論文を統一するエンドツーエンドのニューラルネットワークパイプラインを提示している。
論文 参考訳(メタデータ) (2020-06-12T10:14:15Z) - Unbiased Deep Reinforcement Learning: A General Training Framework for
Existing and Future Algorithms [3.7050607140679026]
本稿では、概念的に理解可能で、強化学習のための全ての実行可能なアルゴリズムに一般化し易い、新しいトレーニングフレームワークを提案する。
我々はモンテカルロサンプリングを用いて生のデータ入力を実現し、マルコフ決定プロセスシーケンスを達成するためにバッチでそれらを訓練する。
我々は、典型的な離散的かつ連続的なシナリオを扱うために、新しいフレームワークに埋め込まれたアルゴリズムをいくつか提案する。
論文 参考訳(メタデータ) (2020-05-12T01:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。