論文の概要: Mode Estimation with Partial Feedback
- arxiv url: http://arxiv.org/abs/2402.13079v1
- Date: Tue, 20 Feb 2024 15:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:41:05.177846
- Title: Mode Estimation with Partial Feedback
- Title(参考訳): 部分フィードバックによるモード推定
- Authors: Charles Arnal, Vivien Cabannes, Vianney Perchet
- Abstract要約: 弱教師付き・能動的学習の中核的な側面を簡単な問題で定式化する。
エントロピー符号化が部分フィードバックから最適な情報取得を可能にすることを示す。
- 参考スコア(独自算出の注目度): 20.426429576184145
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The combination of lightly supervised pre-training and online fine-tuning has
played a key role in recent AI developments. These new learning pipelines call
for new theoretical frameworks. In this paper, we formalize core aspects of
weakly supervised and active learning with a simple problem: the estimation of
the mode of a distribution using partial feedback. We show how entropy coding
allows for optimal information acquisition from partial feedback, develop
coarse sufficient statistics for mode identification, and adapt bandit
algorithms to our new setting. Finally, we combine those contributions into a
statistically and computationally efficient solution to our problem.
- Abstract(参考訳): 軽い教師付き事前トレーニングとオンラインの微調整の組み合わせは、最近のAI開発において重要な役割を果たしている。
これらの新しい学習パイプラインは、新しい理論フレームワークを求めている。
本稿では,弱教師付き・アクティブ学習の中核的側面を,部分的フィードバックを用いた分布モードの推定という単純な問題で定式化する。
エントロピー符号化が部分フィードバックから最適な情報取得を可能にし、モード識別のための粗い統計量を開発し、新しい設定にバンディットアルゴリズムを適用する方法を示す。
最後に,これらの貢献を統計的かつ計算効率の良い解決法にまとめる。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - End-to-End Learning for Stochastic Optimization: A Bayesian Perspective [9.356870107137093]
最適化におけるエンド・ツー・エンド・ラーニングの原則的アプローチを開発する。
本稿では,標準エンドツーエンド学習アルゴリズムがベイズ解釈を認め,ベイズ後の行動地図を訓練することを示す。
次に、意思決定マップの学習のための新しいエンドツーエンド学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-07T05:55:45Z) - Harnessing Heterogeneity: Learning from Decomposed Feedback in Bayesian
Modeling [68.69431580852535]
サブグループフィードバックを取り入れた新しいGPレグレッションを導入する。
我々の修正された回帰は、以前のアプローチと比べて、明らかにばらつきを減らし、したがってより正確な後続を減らした。
我々は2つの異なる社会問題に対してアルゴリズムを実行する。
論文 参考訳(メタデータ) (2021-07-07T03:57:22Z) - Adaptive Sampling for Minimax Fair Classification [40.936345085421955]
最適化の原理に基づく適応型サンプリングアルゴリズムを提案し,その性能に関する理論的境界を導出する。
特定の問題のクラスに対してアルゴリズム独立なローバウンドを導出することにより,適応スキームによる性能は一般に改善できないことを示した。
論文 参考訳(メタデータ) (2021-03-01T04:58:27Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Learning the Travelling Salesperson Problem Requires Rethinking
Generalization [9.176056742068813]
トラベリングセールスパーソン問題(TSP)のようなグラフ最適化問題に対するニューラルネットワークソルバのエンドツーエンドトレーニングは近年,関心が高まっている。
最先端の学習駆動アプローチは、自明に小さなサイズで訓練された場合、古典的な解法と密接に関係するが、実践的な規模で学習ポリシーを大規模に一般化することはできない。
この研究は、トレーニングで見られるものよりも大きいインスタンスへの一般化を促進する、原則化されたバイアス、モデルアーキテクチャ、学習アルゴリズムを特定するために、最近の論文を統一するエンドツーエンドのニューラルネットワークパイプラインを提示している。
論文 参考訳(メタデータ) (2020-06-12T10:14:15Z) - Unbiased Deep Reinforcement Learning: A General Training Framework for
Existing and Future Algorithms [3.7050607140679026]
本稿では、概念的に理解可能で、強化学習のための全ての実行可能なアルゴリズムに一般化し易い、新しいトレーニングフレームワークを提案する。
我々はモンテカルロサンプリングを用いて生のデータ入力を実現し、マルコフ決定プロセスシーケンスを達成するためにバッチでそれらを訓練する。
我々は、典型的な離散的かつ連続的なシナリオを扱うために、新しいフレームワークに埋め込まれたアルゴリズムをいくつか提案する。
論文 参考訳(メタデータ) (2020-05-12T01:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。