論文の概要: Does the Data Processing Inequality Reflect Practice? On the Utility of Low-Level Tasks
- arxiv url: http://arxiv.org/abs/2512.21315v1
- Date: Wed, 24 Dec 2025 18:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.844574
- Title: Does the Data Processing Inequality Reflect Practice? On the Utility of Low-Level Tasks
- Title(参考訳): データ処理の不平等は実践を反映しているか? -低レベルタスクの有用性について-
- Authors: Roy Turgeman, Tom Tirer,
- Abstract要約: 有限個のトレーニングサンプルに対して,分類精度を向上させる事前分類処理が存在することを示す。
また、クラス分離、トレーニングセットサイズ、およびクラスバランスが、この手順の相対的な利得に及ぼす影響についても検討する。
- 参考スコア(独自算出の注目度): 15.03974529275767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The data processing inequality is an information-theoretic principle stating that the information content of a signal cannot be increased by processing the observations. In particular, it suggests that there is no benefit in enhancing the signal or encoding it before addressing a classification problem. This assertion can be proven to be true for the case of the optimal Bayes classifier. However, in practice, it is common to perform "low-level" tasks before "high-level" downstream tasks despite the overwhelming capabilities of modern deep neural networks. In this paper, we aim to understand when and why low-level processing can be beneficial for classification. We present a comprehensive theoretical study of a binary classification setup, where we consider a classifier that is tightly connected to the optimal Bayes classifier and converges to it as the number of training samples increases. We prove that for any finite number of training samples, there exists a pre-classification processing that improves the classification accuracy. We also explore the effect of class separation, training set size, and class balance on the relative gain from this procedure. We support our theory with an empirical investigation of the theoretical setup. Finally, we conduct an empirical study where we investigate the effect of denoising and encoding on the performance of practical deep classifiers on benchmark datasets. Specifically, we vary the size and class distribution of the training set, and the noise level, and demonstrate trends that are consistent with our theoretical results.
- Abstract(参考訳): データ処理の不等式は、信号の情報内容が観察処理によって増大できないという情報理論の原理である。
特に、分類問題に対処する前に信号の強化や符号化にメリットがないことを示唆している。
この主張は最適ベイズ分類器の場合、真であることが証明できる。
しかし、実際には、現代のディープニューラルネットワークの圧倒的な能力にもかかわらず、「ハイレベル」下流タスクの前に「低レベル」タスクを実行することが一般的である。
本稿では,低レベルの処理がいつ,なぜ,分類に有用かを理解することを目的とする。
そこでは、最適なベイズ分類器と密接に結びついており、トレーニングサンプルの数が増えるにつれてそれに収束する分類器を考える。
有限個のトレーニングサンプルに対して,分類精度を向上させる事前分類処理が存在することを証明した。
また、クラス分離、トレーニングセットサイズ、およびクラスバランスが、この手順の相対的な利得に及ぼす影響についても検討する。
我々は、理論的な設定を実証的に調査することで、我々の理論を支持します。
最後に,実証的研究を行い,実際のディープ分類器の性能がベンチマークデータセットに与える影響について検討する。
具体的には、トレーニングセットのサイズとクラス分布、騒音レベル、および理論結果と整合性のある傾向を示す。
関連論文リスト
- Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - An Upper Bound for the Distribution Overlap Index and Its Applications [22.92968284023414]
本稿では,2つの確率分布間の重なり関数に対する計算容易な上限を提案する。
提案した境界は、一級分類と領域シフト解析においてその値を示す。
私たちの研究は、重複ベースのメトリクスの応用を拡大する大きな可能性を示しています。
論文 参考訳(メタデータ) (2022-12-16T20:02:03Z) - Mutual Information Learned Classifiers: an Information-theoretic
Viewpoint of Training Deep Learning Classification Systems [9.660129425150926]
クロスエントロピー損失は、重度のオーバーフィッティング動作を示すモデルを見つけるのに容易である。
本稿では,既存のDNN分類器のクロスエントロピー損失最小化が,基礎となるデータ分布の条件エントロピーを本質的に学習することを証明する。
ラベルと入力の相互情報を学習することで、DNN分類器を訓練する相互情報学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-03T15:09:19Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。