Fugu-MT 論文翻訳(概要): Label Smoothing is Robustification against Model Misspecification

論文の概要: Label Smoothing is Robustification against Model Misspecification

arxiv url: http://arxiv.org/abs/2305.08501v1
Date: Mon, 15 May 2023 09:57:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-16 15:12:36.405989
Title: Label Smoothing is Robustification against Model Misspecification
Title（参考訳）: ラベル平滑化はモデルの誤特定に対するロバスト化である
Authors: Ryoya Yamasaki, Toshiyuki Tanaka
Abstract要約: ラベルスムーシング(LS)は、分類タスクにおいてスムースなターゲットを採用する。損失関数の修正は, よりスムージングレベルの高いMLSLRが, 正しく特定されたモデルでより低効率であることを示す。確率推定器の修正について,L SLRとMLSLRの実験的比較により,L SLRにおけるロジットの修正とスクイーズは,確率推定と分類性能に負の影響を及ぼすことが示された。
参考スコア（独自算出の注目度）: 8.571896191090744
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Label smoothing (LS) adopts smoothed targets in classification tasks. For example, in binary classification, instead of the one-hot target $(1,0)^\top$ used in conventional logistic regression (LR), LR with LS (LSLR) uses the smoothed target $(1-\frac{\alpha}{2},\frac{\alpha}{2})^\top$ with a smoothing level $\alpha\in(0,1)$, which causes squeezing of values of the logit. Apart from the common regularization-based interpretation of LS that leads to an inconsistent probability estimator, we regard LSLR as modifying the loss function and consistent estimator for probability estimation. In order to study the significance of each of these two modifications by LSLR, we introduce a modified LSLR (MLSLR) that uses the same loss function as LSLR and the same consistent estimator as LR, while not squeezing the logits. For the loss function modification, we theoretically show that MLSLR with a larger smoothing level has lower efficiency with correctly-specified models, while it exhibits higher robustness against model misspecification than LR. Also, for the modification of the probability estimator, an experimental comparison between LSLR and MLSLR showed that this modification and squeezing of the logits in LSLR have negative effects on the probability estimation and classification performance. The understanding of the properties of LS provided by these comparisons allows us to propose MLSLR as an improvement over LSLR.
Abstract（参考訳）: label smoothing (ls) は分類タスクにおいて滑らかなターゲットを採用する。例えば、二項分類では、従来のロジスティック回帰(LR)で使用される1ホットターゲット$(1,0)^\top$の代わりに、LS (LSLR) のLRは滑らかなターゲット $(1-\frac{\alpha}{2},\frac{\alpha}{2})^\top$ を、滑らかなレベル $\alpha\in(0,1)$ で使用する。不整合確率推定器につながるLSの共通正規化に基づく解釈とは別に、LSLRは損失関数の修正と確率推定のための一貫した推定器とみなす。 LSLRによるこれらの2つの修正の意義を研究するため,LSLRと同じ損失関数とLRと同じ一貫した推定器を用いた改良LSLR(MLSLR)を導入する。損失関数の修正については,MLSLRのスムージングレベルが大きくなると,モデルが正しく特定されたモデルでは効率が低下することが理論的に示されている。また、確率推定器の修正について、LSLRとMLSLRの実験的比較により、LSLRにおけるロジットの修正とスクイーズが確率推定と分類性能に悪影響を及ぼすことを示した。これらの比較によって提供されるLSの特性の理解により、LSLRよりも優れたMLSLRを提案することができる。

関連論文リスト

FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [61.79405341803085]
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
論文参考訳（メタデータ） (2025-05-19T07:32:56Z)
Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。 LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。 LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文参考訳（メタデータ） (2025-02-20T18:37:32Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
CA-SSLR: Condition-Aware Self-Supervised Learning Representation for Generalized Speech Processing [27.828675312638296]
条件対応自己監視型学習表現(CA-SSLR)を導入する。 CA-S SLRはモデルの能力を向上し、目に見えないタスクに対する一般性を示す。実験により、CA-S SLRはトレーニング可能なパラメータの数を減らし、過度な適合を緩和し、リソース不足や見当たらないタスクで優れることが示された。
論文参考訳（メタデータ） (2024-12-05T18:51:10Z)
RILQ: Rank-Insensitive LoRA-based Quantization Error Compensation for Boosting 2-bit Large Language Model Accuracy [5.767260383077013]
低ランク適応(LoRA)がパラメータ効率のLLM微調整の主流となっている。 LoRAベースの量子化誤差補償(LQEC)は圧縮LDMの精度を回復するための強力なツールである。 RILQ(Rank-Insensitive LoRA-based Quantization Error Compensation)を提案する。
論文参考訳（メタデータ） (2024-12-02T05:09:56Z)
Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues [65.41946981594567]
リニアリカレントニューラルネットワーク(LRNN)は、大規模言語モデリングにおけるトランスフォーマーの効率的な代替手段として登場した。 LRNNは、コード評価やチェスゲーム追跡といったタスクのパフォーマンスを損なうような状態追跡を行うのに苦労している。我々の研究は、現代のLRNNの表現性を高め、トレーニングや推論のコストを変えることなく適用性を高める。
論文参考訳（メタデータ） (2024-11-19T14:35:38Z)
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文参考訳（メタデータ） (2024-11-01T20:44:59Z)
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文参考訳（メタデータ） (2024-10-27T22:57:12Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Scaling Law with Learning Rate Annealing [4.121865876406014]
ニューラルネットワークモデルのクロスエントロピー損失曲線は、学習速度(LR)がトレーニングステップを上回り、スケーリング法則に準拠している。 LRアニールによるスケーリング法則の適用により、学習速度(LRS)の任意のステップにおける損失を正確に予測することができる。
論文参考訳（メタデータ） (2024-08-20T17:30:48Z)
Linguistic Steganalysis via LLMs: Two Modes for Efficient Detection of Strongly Concealed Stego [6.99735992267331]
LSGCと呼ばれる2つのモードを持つ新しいLSを設計する。生成モードでは、LS-task"記述"を作成しました。分類モードでは、LSGCはLS-taskの「記述」を削除し、"causalLM" LLMs を使用して骨組織学的特徴を抽出した。
論文参考訳（メタデータ） (2024-06-06T16:18:02Z)
$\ell_1$-Regularized Generalized Least Squares [0.0]
我々は、持続的な自己回帰的誤りを許容するフレームワークにおいて、推定精度の非漸近オラクル不等式を確立する。シミュレーション実験により提案手法の性能を検証し, 白色雑音の場合には, GLS-LASSO推定器がLASSOと同等に動作することを示す。
論文参考訳（メタデータ） (2024-05-17T12:03:24Z)
Towards Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It [6.19039575840278]
ラベルスムーシング(LS)はニューラルネットワークをトレーニングするための一般的な正規化手法である。まず、LSが選択的分類を一貫して劣化させる広範囲の大規模タスクを経験的に実証する。次に,LSによる失われたSCの回復に対するポストホックロジット正規化の有効性を実証した。
論文参考訳（メタデータ） (2024-03-19T06:46:24Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Robust Spoken Language Understanding with RL-based Value Error Recovery [35.82890898452309]
Spoken Language Understanding (SLU) は、音声認識されたテキストから構造化された意味表現(例えば、スロット値対)を抽出することを目的としている。本稿では,ルールベースの値エラー回復モジュールを用いてSLU入力適応を誘導する,新しいロバストなSLUフレームワークを提案する。パブリックCATSLUデータセットを用いた実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-09-07T13:32:07Z)
Modal Regression based Structured Low-rank Matrix Recovery for Multi-view Learning [70.57193072829288]
近年、低ランクなマルチビューサブスペース学習は、クロスビューの分類において大きな可能性を示している。既存のLMvSLベースの手法では、ビューの区別と差別を同時に扱うことができない。本稿では,視差を効果的に除去し,識別性を向上する独自の方法であるStructured Low-rank Matrix Recovery (SLMR)を提案する。
論文参考訳（メタデータ） (2020-03-22T03:57:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。