論文の概要: Label Smoothing is Robustification against Model Misspecification
- arxiv url: http://arxiv.org/abs/2305.08501v1
- Date: Mon, 15 May 2023 09:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 15:12:36.405989
- Title: Label Smoothing is Robustification against Model Misspecification
- Title(参考訳): ラベル平滑化はモデルの誤特定に対するロバスト化である
- Authors: Ryoya Yamasaki, Toshiyuki Tanaka
- Abstract要約: ラベルスムーシング(LS)は、分類タスクにおいてスムースなターゲットを採用する。
損失関数の修正は, よりスムージングレベルの高いMLSLRが, 正しく特定されたモデルでより低効率であることを示す。
確率推定器の修正について,L SLRとMLSLRの実験的比較により,L SLRにおけるロジットの修正とスクイーズは,確率推定と分類性能に負の影響を及ぼすことが示された。
- 参考スコア(独自算出の注目度): 8.571896191090744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Label smoothing (LS) adopts smoothed targets in classification tasks. For
example, in binary classification, instead of the one-hot target $(1,0)^\top$
used in conventional logistic regression (LR), LR with LS (LSLR) uses the
smoothed target $(1-\frac{\alpha}{2},\frac{\alpha}{2})^\top$ with a smoothing
level $\alpha\in(0,1)$, which causes squeezing of values of the logit. Apart
from the common regularization-based interpretation of LS that leads to an
inconsistent probability estimator, we regard LSLR as modifying the loss
function and consistent estimator for probability estimation. In order to study
the significance of each of these two modifications by LSLR, we introduce a
modified LSLR (MLSLR) that uses the same loss function as LSLR and the same
consistent estimator as LR, while not squeezing the logits. For the loss
function modification, we theoretically show that MLSLR with a larger smoothing
level has lower efficiency with correctly-specified models, while it exhibits
higher robustness against model misspecification than LR. Also, for the
modification of the probability estimator, an experimental comparison between
LSLR and MLSLR showed that this modification and squeezing of the logits in
LSLR have negative effects on the probability estimation and classification
performance. The understanding of the properties of LS provided by these
comparisons allows us to propose MLSLR as an improvement over LSLR.
- Abstract(参考訳): label smoothing (ls) は分類タスクにおいて滑らかなターゲットを採用する。
例えば、二項分類では、従来のロジスティック回帰(LR)で使用される1ホットターゲット$(1,0)^\top$の代わりに、LS (LSLR) のLRは滑らかなターゲット $(1-\frac{\alpha}{2},\frac{\alpha}{2})^\top$ を、滑らかなレベル $\alpha\in(0,1)$ で使用する。
不整合確率推定器につながるLSの共通正規化に基づく解釈とは別に、LSLRは損失関数の修正と確率推定のための一貫した推定器とみなす。
LSLRによるこれらの2つの修正の意義を研究するため,LSLRと同じ損失関数とLRと同じ一貫した推定器を用いた改良LSLR(MLSLR)を導入する。
損失関数の修正については,MLSLRのスムージングレベルが大きくなると,モデルが正しく特定されたモデルでは効率が低下することが理論的に示されている。
また、確率推定器の修正について、LSLRとMLSLRの実験的比較により、LSLRにおけるロジットの修正とスクイーズが確率推定と分類性能に悪影響を及ぼすことを示した。
これらの比較によって提供されるLSの特性の理解により、LSLRよりも優れたMLSLRを提案することができる。
関連論文リスト
- Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues [65.41946981594567]
リニアリカレントニューラルネットワーク(LRNN)は、大規模言語モデリングにおけるトランスフォーマーの効率的な代替手段として登場した。
LRNNは、コード評価やチェスゲーム追跡といったタスクのパフォーマンスを損なうような状態追跡を行うのに苦労している。
我々の研究は、現代のLRNNの表現性を高め、トレーニングや推論のコストを変えることなく適用性を高める。
論文 参考訳(メタデータ) (2024-11-19T14:35:38Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Scaling Law with Learning Rate Annealing [4.121865876406014]
ニューラルネットワークモデルのクロスエントロピー損失曲線は、学習速度(LR)がトレーニングステップを上回り、スケーリング法則に準拠している。
LRアニールによるスケーリング法則の適用により、学習速度(LRS)の任意のステップにおける損失を正確に予測することができる。
論文 参考訳(メタデータ) (2024-08-20T17:30:48Z) - Linguistic Steganalysis via LLMs: Two Modes for Efficient Detection of Strongly Concealed Stego [6.99735992267331]
LSGCと呼ばれる2つのモードを持つ新しいLSを設計する。
生成モードでは、LS-task"記述"を作成しました。
分類モードでは、LSGCはLS-taskの「記述」を削除し、"causalLM" LLMs を使用して骨組織学的特徴を抽出した。
論文 参考訳(メタデータ) (2024-06-06T16:18:02Z) - $\ell_1$-Regularized Generalized Least Squares [0.0]
我々は、持続的な自己回帰的誤りを許容するフレームワークにおいて、推定精度の非漸近オラクル不等式を確立する。
シミュレーション実験により提案手法の性能を検証し, 白色雑音の場合には, GLS-LASSO推定器がLASSOと同等に動作することを示す。
論文 参考訳(メタデータ) (2024-05-17T12:03:24Z) - Towards Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It [6.19039575840278]
ラベルスムーシング(LS)はニューラルネットワークをトレーニングするための一般的な正規化手法である。
まず、LSが選択的分類を一貫して劣化させる広範囲の大規模タスクを経験的に実証する。
次に,LSによる失われたSCの回復に対するポストホックロジット正規化の有効性を実証した。
論文 参考訳(メタデータ) (2024-03-19T06:46:24Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Robust Spoken Language Understanding with RL-based Value Error Recovery [35.82890898452309]
Spoken Language Understanding (SLU) は、音声認識されたテキストから構造化された意味表現(例えば、スロット値対)を抽出することを目的としている。
本稿では,ルールベースの値エラー回復モジュールを用いてSLU入力適応を誘導する,新しいロバストなSLUフレームワークを提案する。
パブリックCATSLUデータセットを用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-09-07T13:32:07Z) - Modal Regression based Structured Low-rank Matrix Recovery for
Multi-view Learning [70.57193072829288]
近年、低ランクなマルチビューサブスペース学習は、クロスビューの分類において大きな可能性を示している。
既存のLMvSLベースの手法では、ビューの区別と差別を同時に扱うことができない。
本稿では,視差を効果的に除去し,識別性を向上する独自の方法であるStructured Low-rank Matrix Recovery (SLMR)を提案する。
論文 参考訳(メタデータ) (2020-03-22T03:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。