論文の概要: Do Not Imitate, Reinforce: Iterative Classification via Belief Refinement
- arxiv url: http://arxiv.org/abs/2604.22110v1
- Date: Thu, 23 Apr 2026 23:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.288244
- Title: Do Not Imitate, Reinforce: Iterative Classification via Belief Refinement
- Title(参考訳): Reinforce, Reinforce, Don Don Imitate, Reinforce: Iterative Classification via Belief Refinement (特集:「リミット」)
- Authors: Mahdi Kallel, Johannes Tölle, Ahmed Hendawy, Carlo D'Eramo,
- Abstract要約: 模擬目的を強化学習(RL)に置き換える強化反復分類(RIC)を提案する。
RICは、クラス上の予測分布を反復的に更新するリカレントエージェントをデプロイし、予測品質を段階的に改善するための報酬を受け取る。
画像分類ベンチマークでは、RICは教師付きベースラインの精度とキャリブレーションの改善を照合し、入力間で適応的に計算を割り当てることを学ぶ。
- 参考スコア(独自算出の注目度): 10.794100274863816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard supervised classification trains models to imitate the exact labels provided by a perfect oracle. This imitation happens in a single pass, restricting the model to a fixed compute budget even when inputs vary in complexity. Moreover, the rigid training objective forces the model to express absolute certainty on its training data, resulting in overconfident predictions during evaluation. We propose Reinforced Iterative Classification (RIC), which replaces the imitative objective with Reinforcement Learning (RL). RIC deploys a recurrent agent that iteratively updates a predictive distribution over classes, receiving reward for stepwise improvement in prediction quality. The value function provides a natural halting criterion by estimating the remaining scope for improvement. We prove that the iterative formulation recovers the same optimal predictions as cross-entropy while yielding an anytime classifier. On image classification benchmarks, RIC matches the accuracy of supervised baselines with improved calibration and learns to allocate computation adaptively across inputs.
- Abstract(参考訳): 標準教師付き分類列車は、完璧な神託によって提供される正確なラベルを模倣するモデルである。
この模倣は単一のパスで発生し、入力が複雑度が異なる場合でも、モデルを固定された計算予算に制限する。
さらに、厳密な訓練目標により、モデルはトレーニングデータに絶対的な確実性を表現せざるを得なくなり、その結果、評価中に過信的な予測が生じる。
本稿では、模倣目的を強化学習(RL)に置き換える強化反復分類(RIC)を提案する。
RICは、クラス上の予測分布を反復的に更新するリカレントエージェントをデプロイし、予測品質を段階的に改善するための報酬を受け取る。
値関数は、改善のための残りのスコープを推定することによって、自然な停止基準を提供する。
反復的定式化は、任意の時間分類器を出力しながら、クロスエントロピーと同じ最適予測を回復することを示す。
画像分類ベンチマークでは、RICは教師付きベースラインの精度とキャリブレーションの改善を照合し、入力間で適応的に計算を割り当てることを学ぶ。
関連論文リスト
- Forecasting Multivariate Time Series under Predictive Heterogeneity: A Validation-Driven Clustering Framework [8.124770608442377]
統計的決定問題として適応プーリングを定式化する。
我々は,いつ,どのように専門化を適用すべきかを決定する検証駆動型フレームワークを提案する。
大規模トラフィックデータセットの実験では、強いベースラインよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-04-15T11:35:32Z) - Online Bayesian Imbalanced Learning with Bregman-Calibrated Deep Networks [0.7106986689736825]
本報告では、クラス優先の仮定から確率比の推定を分離する原則的フレームワークであるOBIL(TextitOnline Bayesian Im Balanced Learning)を提案する。
我々のアプローチは、ブレグマンの発散と適切なスコアリングルールとの確立された接続に基づいて、そのような損失で訓練されたディープネットワークが後続確率推定を生成することを示す。
これらの確率比の推定は、クラス事前およびコスト構造における任意の変化の下でも有効であり、最適なベイズ決定のためのしきい値調整のみを必要とすることを証明している。
論文 参考訳(メタデータ) (2026-02-08T21:23:00Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Leveraging Uncertainty Estimates To Improve Classifier Performance [4.4951754159063295]
バイナリ分類では、正のクラスのモデルスコアが、アプリケーション要求に基づいて選択されたしきい値を超えるかどうかに基づいて、インスタンスのラベルを予測する。
しかし、モデルスコアは真の肯定率と一致しないことが多い。
これは特に、クラス間の差分サンプリングを含むトレーニングや、トレインとテスト設定間の分散ドリフトがある場合に当てはまる。
論文 参考訳(メタデータ) (2023-11-20T12:40:25Z) - Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。