論文の概要: Label Smoothing is Robustification against Model Misspecification
- arxiv url: http://arxiv.org/abs/2305.08501v1
- Date: Mon, 15 May 2023 09:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 15:12:36.405989
- Title: Label Smoothing is Robustification against Model Misspecification
- Title(参考訳): ラベル平滑化はモデルの誤特定に対するロバスト化である
- Authors: Ryoya Yamasaki, Toshiyuki Tanaka
- Abstract要約: ラベルスムーシング(LS)は、分類タスクにおいてスムースなターゲットを採用する。
損失関数の修正は, よりスムージングレベルの高いMLSLRが, 正しく特定されたモデルでより低効率であることを示す。
確率推定器の修正について,L SLRとMLSLRの実験的比較により,L SLRにおけるロジットの修正とスクイーズは,確率推定と分類性能に負の影響を及ぼすことが示された。
- 参考スコア(独自算出の注目度): 8.571896191090744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Label smoothing (LS) adopts smoothed targets in classification tasks. For
example, in binary classification, instead of the one-hot target $(1,0)^\top$
used in conventional logistic regression (LR), LR with LS (LSLR) uses the
smoothed target $(1-\frac{\alpha}{2},\frac{\alpha}{2})^\top$ with a smoothing
level $\alpha\in(0,1)$, which causes squeezing of values of the logit. Apart
from the common regularization-based interpretation of LS that leads to an
inconsistent probability estimator, we regard LSLR as modifying the loss
function and consistent estimator for probability estimation. In order to study
the significance of each of these two modifications by LSLR, we introduce a
modified LSLR (MLSLR) that uses the same loss function as LSLR and the same
consistent estimator as LR, while not squeezing the logits. For the loss
function modification, we theoretically show that MLSLR with a larger smoothing
level has lower efficiency with correctly-specified models, while it exhibits
higher robustness against model misspecification than LR. Also, for the
modification of the probability estimator, an experimental comparison between
LSLR and MLSLR showed that this modification and squeezing of the logits in
LSLR have negative effects on the probability estimation and classification
performance. The understanding of the properties of LS provided by these
comparisons allows us to propose MLSLR as an improvement over LSLR.
- Abstract(参考訳): label smoothing (ls) は分類タスクにおいて滑らかなターゲットを採用する。
例えば、二項分類では、従来のロジスティック回帰(LR)で使用される1ホットターゲット$(1,0)^\top$の代わりに、LS (LSLR) のLRは滑らかなターゲット $(1-\frac{\alpha}{2},\frac{\alpha}{2})^\top$ を、滑らかなレベル $\alpha\in(0,1)$ で使用する。
不整合確率推定器につながるLSの共通正規化に基づく解釈とは別に、LSLRは損失関数の修正と確率推定のための一貫した推定器とみなす。
LSLRによるこれらの2つの修正の意義を研究するため,LSLRと同じ損失関数とLRと同じ一貫した推定器を用いた改良LSLR(MLSLR)を導入する。
損失関数の修正については,MLSLRのスムージングレベルが大きくなると,モデルが正しく特定されたモデルでは効率が低下することが理論的に示されている。
また、確率推定器の修正について、LSLRとMLSLRの実験的比較により、LSLRにおけるロジットの修正とスクイーズが確率推定と分類性能に悪影響を及ぼすことを示した。
これらの比較によって提供されるLSの特性の理解により、LSLRよりも優れたMLSLRを提案することができる。
関連論文リスト
- Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It [6.19039575840278]
ラベル平滑化(LS)が選択的分類(SC)に悪影響を及ぼすことを示す。
LSは、エラーの確率が低い場合には最大ロジットを規則化し、エラーの確率が高い場合はより小さくすることで、過信と過信を増す。
次に,LSによる損失SCの回復に対するロジット正規化の有効性を実証した。
論文 参考訳(メタデータ) (2024-03-19T06:46:24Z) - Metric-aware LLM inference for regression and scoring [52.764328080398805]
大規模言語モデル(LLM)は、様々なNLPタスクに対して強い結果を示してきた。
我々は,この推論戦略が,様々な回帰・スコアリングタスクや関連する評価指標に最適であることを示す。
我々は、カスタム回帰を最適化し、推定時にメトリクスをスコアリングする決定論的アプローチである、意識的距離 LLM 推論を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - The Adaptive $\tau$-Lasso: Robustness and Oracle Properties [14.250233515645782]
本稿では,高次元データセット解析のためのロバストな$tau$-regression推定器の正規化版を紹介する。
得られた推定器はアダプティブ $tau$-Lasso と呼ばれ、外れ値や高平均点に対して堅牢である。
外れ値と高平均点に直面して、適応 $tau$-Lasso と $tau$-Lasso 推定器は、最高のパフォーマンスまたは最も近いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-18T21:34:14Z) - A Wasserstein Minimax Framework for Mixed Linear Regression [69.40394595795544]
マルチモーダル分布は、学習タスクにおいてクラスタ化されたデータをモデル化するために一般的に使用される。
混合線形回帰問題に対する最適輸送ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-14T16:03:51Z) - Robust Spoken Language Understanding with RL-based Value Error Recovery [35.82890898452309]
Spoken Language Understanding (SLU) は、音声認識されたテキストから構造化された意味表現(例えば、スロット値対)を抽出することを目的としている。
本稿では,ルールベースの値エラー回復モジュールを用いてSLU入力適応を誘導する,新しいロバストなSLUフレームワークを提案する。
パブリックCATSLUデータセットを用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-09-07T13:32:07Z) - Semi-Supervised Empirical Risk Minimization: Using unlabeled data to
improve prediction [4.860671253873579]
本稿では,経験的リスク最小化(Empirical Risk Minimization,ERM)学習プロセスの半教師付き学習(SSL)変種を設計するためにラベルのないデータを使用する一般的な手法を提案する。
我々は、予測性能の向上におけるSSLアプローチの有効性を分析した。
論文 参考訳(メタデータ) (2020-09-01T17:55:51Z) - MLR-SNet: Transferable LR Schedules for Heterogeneous Tasks [56.66010634895913]
学習率(LR)は、勾配降下(SGD)訓練ネットワーク(DNN)において最も重要なハイパーラーニングネットワークパラメータの1つである。
本稿では,MLR-SNetタスクの適切なLRスケジュールを学習することを提案する。
また、MLR-SNetを使用して、異なるノイズ、アーキテクチャ、データモダリティ、トレーニング用のサイズなどのタスクをクエリし、パフォーマンスを達成または改善します。
論文 参考訳(メタデータ) (2020-07-29T01:18:58Z) - Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-20T20:36:17Z) - Modal Regression based Structured Low-rank Matrix Recovery for
Multi-view Learning [70.57193072829288]
近年、低ランクなマルチビューサブスペース学習は、クロスビューの分類において大きな可能性を示している。
既存のLMvSLベースの手法では、ビューの区別と差別を同時に扱うことができない。
本稿では,視差を効果的に除去し,識別性を向上する独自の方法であるStructured Low-rank Matrix Recovery (SLMR)を提案する。
論文 参考訳(メタデータ) (2020-03-22T03:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。