論文の概要: Uses and Abuses of the Cross-Entropy Loss: Case Studies in Modern Deep
Learning
- arxiv url: http://arxiv.org/abs/2011.05231v1
- Date: Tue, 10 Nov 2020 16:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 06:57:36.102977
- Title: Uses and Abuses of the Cross-Entropy Loss: Case Studies in Modern Deep
Learning
- Title(参考訳): クロスエントロピー損失の活用と悪用--近代的深層学習を事例として
- Authors: Elliott Gordon-Rodriguez, Gabriel Loaiza-Ganem, Geoff Pleiss, John P.
Cunningham
- Abstract要約: 我々は、厳密な分類ではなく、単純な表現の値を取るデータにカテゴリ横断エントロピー損失を用いることに焦点をあてる。
このプラクティスは、ラベルの平滑化やアクター/ミリ波強化学習など、ニューラルネットワークアーキテクチャにおいて標準的なものだ。
我々はこれらのモデルに対して確率論的に着想を得た代替案を提案し、より原理的で理論的に魅力的であるアプローチを提供する。
- 参考スコア(独自算出の注目度): 29.473503894240096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning is primarily an experimental science, in which empirical
advances occasionally come at the expense of probabilistic rigor. Here we focus
on one such example; namely the use of the categorical cross-entropy loss to
model data that is not strictly categorical, but rather takes values on the
simplex. This practice is standard in neural network architectures with label
smoothing and actor-mimic reinforcement learning, amongst others. Drawing on
the recently discovered continuous-categorical distribution, we propose
probabilistically-inspired alternatives to these models, providing an approach
that is more principled and theoretically appealing. Through careful
experimentation, including an ablation study, we identify the potential for
outperformance in these models, thereby highlighting the importance of a proper
probabilistic treatment, as well as illustrating some of the failure modes
thereof.
- Abstract(参考訳): 現代のディープラーニングは、主に実験的な科学であり、経験的な進歩が確率的厳密さを犠牲にされることがある。
ここでは,その1つの例に焦点を当てる。すなわち,厳密な分類ではなく,単純な値を取るモデルデータに対するカテゴリ間クロスエントロピー損失の利用である。
このプラクティスは、ラベル平滑化やアクタ-ミミック強化学習など、ニューラルネットワークアーキテクチャにおいて標準的なものだ。
最近発見された連続的カテゴリー分布に基づき,これらのモデルに対する確率的インスパイアされた代替案を提案し,より原理的かつ理論的に魅力的であるアプローチを提案する。
アブレーション研究を含む慎重な実験を通じて,これらのモデルにおけるアウトパフォーマンスの可能性を特定し,適切な確率的治療の重要性を強調するとともに,その障害モードのいくつかを例示する。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A Mathematical Framework for Learning Probability Distributions [0.0]
生成的モデリングと密度推定は 近年 非常にポピュラーな話題になっています
本論文は、すべての有名なモデルを単純な原理に基づいて導出できる数学的枠組みを提供する。
特に,これらのモデルが訓練中に暗黙的な正規化を楽しむことを証明し,早期停止時の一般化誤差が次元性の呪いを避ける。
論文 参考訳(メタデータ) (2022-12-22T04:41:45Z) - Bias-inducing geometries: an exactly solvable data model with fairness
implications [13.690313475721094]
我々は、正確に解決可能なデータ不均衡の高次元モデルを導入する。
この合成フレームワークで訓練された学習モデルの典型的特性を解析的に解き放つ。
フェアネス評価によく用いられる観測対象の正確な予測値を得る。
論文 参考訳(メタデータ) (2022-05-31T16:27:57Z) - Last Layer Marginal Likelihood for Invariance Learning [12.00078928875924]
我々は、より大きな確率関数のクラスに対する推論を行うことができるような、限界確率に対する新しい下界を導入する。
我々は、最後の層にガウス的プロセスを持つアーキテクチャを使用することで、このアプローチをニューラルネットワークに導入することに取り組んでいます。
論文 参考訳(メタデータ) (2021-06-14T15:40:51Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Understanding the Failure Modes of Out-of-Distribution Generalization [35.00563456450452]
経験的研究は、機械学習モデルは、トレーニング時間にのみラベルと急激な相関関係を持つ可能性のある背景のような特徴にしばしば依存していることを示唆している。
本研究は,学習が容易なタスクにおいても,モデルがこのように失敗する理由を説明することによって,この行動を引き起こす基本的な要因を同定する。
論文 参考訳(メタデータ) (2020-10-29T17:19:03Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z) - The continuous categorical: a novel simplex-valued exponential family [23.983555024375306]
単純な値を持つデータに対する標準的な選択は、バイアスや数値問題など、いくつかの制限に悩まされていることを示す。
我々は,これらの制約を,単純度値データモデリングのための新しい指数関数列を導入することによって解決する。
ディリクレや他の典型的な選択とは異なり、連続な圏は確率的損失関数をよく表す。
論文 参考訳(メタデータ) (2020-02-20T04:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。