論文の概要: Loss Functions and Operators Generated by f-Divergences
- arxiv url: http://arxiv.org/abs/2501.18537v1
- Date: Thu, 30 Jan 2025 18:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:13:04.966788
- Title: Loss Functions and Operators Generated by f-Divergences
- Title(参考訳): f-divergencesによる損失関数と演算子
- Authors: Vincent Roulet, Tianlin Liu, Nino Vieillard, Michael E. Sander, Mathieu Blondel,
- Abstract要約: 本稿では,$f$-divergencesに基づいて新しい凸損失関数を構築することを提案する。
ロジスティック損失と類似して、$f$-divergenceによって生成される損失関数は演算子と関連付けられ、$f$-softargmax をダブする。
本研究の目的は,言語モデル設定における古典的クロスエントロピーを超えた損失関数の有効性を決定することである。
- 参考スコア(独自算出の注目度): 21.58093510003414
- License:
- Abstract: The logistic loss (a.k.a. cross-entropy loss) is one of the most popular loss functions used for multiclass classification. It is also the loss function of choice for next-token prediction in language modeling. It is associated with the Kullback--Leibler (KL) divergence and the softargmax operator. In this work, we propose to construct new convex loss functions based on $f$-divergences. Our loss functions generalize the logistic loss in two directions: i) by replacing the KL divergence with $f$-divergences and ii) by allowing non-uniform reference measures. We instantiate our framework for numerous $f$-divergences, recovering existing losses and creating new ones. By analogy with the logistic loss, the loss function generated by an $f$-divergence is associated with an operator, that we dub $f$-softargmax. We derive a novel parallelizable bisection algorithm for computing the $f$-softargmax associated with any $f$-divergence. On the empirical side, one of the goals of this paper is to determine the effectiveness of loss functions beyond the classical cross-entropy in a language model setting, including on pre-training, post-training (SFT) and distillation. We show that the loss function generated by the $\alpha$-divergence (which is equivalent to Tsallis $\alpha$-negentropy in the case of unit reference measures) with $\alpha=1.5$ performs well across several tasks.
- Abstract(参考訳): ロジスティック損失(英: logistic loss、つまりクロスエントロピー損失)は、多クラス分類において最もよく用いられる損失関数の1つである。
また、言語モデリングにおける次世代の予測のために選択された損失関数でもある。
Kullback--Leibler (KL) の発散とSoftargmax演算子と関連している。
本研究では,$f$-divergencesに基づく新しい凸損失関数を構築することを提案する。
我々の損失関数は2方向のロジスティック損失を一般化する。
一 KL の発散を$f$-divergences に置き換えて
二 非一様基準措置を許すことにより。
多数の$f$-divergencesのためにフレームワークをインスタンス化し、既存の損失を回復し、新しいものを作成します。
ロジスティック損失と類似して、$f$-divergence によって生成される損失関数は演算子と関連付けられ、$f$-softargmax をダブする。
我々は任意の$f$-divergenceに付随する$f$-softargmaxを計算するための新しい並列化可能な分岐アルゴリズムを導出する。
本研究の目的は,言語モデル設定における古典的クロスエントロピーを超えた損失関数の有効性を,事前学習,後学習(SFT),蒸留などにおいて決定することである。
我々は,Tsallis $\alpha$-divergence(単位参照測度の場合,Tsallis $\alpha$-negentropyに相当)が生成した損失関数が,複数のタスクでよく動作することを示す。
関連論文リスト
- $α$-Divergence Loss Function for Neural Density Ratio Estimation [0.0]
密度比推定(DRE)は2つの確率分布の関係を捉えるための基礎的な機械学習手法である。
既存の手法では、低ウンバウンド損失関数によるオーバーフィッティング、バイアス付きミニバッチ勾配、トレーニング損失勾配の消失、KL(Kullback-Leibler)分散損失関数に対する高いサンプル要求など、最適化上の課題に直面している。
本稿では,DREの新しい損失関数である$alpha$-divergence loss function(alpha$-Div)を提案する。
論文 参考訳(メタデータ) (2024-02-03T05:33:01Z) - Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - Cross-Entropy Loss Functions: Theoretical Analysis and Applications [27.3569897539488]
本稿では, クロスエントロピー(あるいはロジスティック損失), 一般化クロスエントロピー, 平均絶対誤差, その他のクロスエントロピー様損失関数を含む, 幅広い損失関数群の理論解析について述べる。
これらの損失関数は,$H$-consistency bounds(===========================================================================)であることを証明する。
これにより、正規化された滑らかな逆数和損失を最小限に抑える新しい逆数堅牢性アルゴリズムがもたらされる。
論文 参考訳(メタデータ) (2023-04-14T17:58:23Z) - The Geometry of Mixability [8.873449722727026]
二項および多項の場合の混合性に関する簡易な幾何学的特徴付けを提供する。
我々のアプローチは、損失関数に関するいくつかの概念を'コーディネートフリー'な方法で扱う方法を提供する。
論文 参考訳(メタデータ) (2023-02-23T10:25:38Z) - FeDXL: Provable Federated Learning for Deep X-Risk Optimization [105.17383135458897]
我々は、既存のアルゴリズムが適用できないXリスクのファミリーを最適化するために、新しい連邦学習(FL)問題に取り組む。
Xリスクに対するFLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非可逆性と、異なるマシン間の相互依存にある。
論文 参考訳(メタデータ) (2022-10-26T00:23:36Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Realizing GANs via a Tunable Loss Function [7.455546102930911]
我々は$alpha$-GAN と呼ばれる調整可能な GAN を導入し、$alpha in (0,infty]$ でパラメータ化する。
その結果,$alpha$-GANは有本発散と密接に関連していることがわかった。
論文 参考訳(メタデータ) (2021-06-09T17:18:21Z) - A surrogate loss function for optimization of $F_\beta$ score in binary
classification with imbalanced data [0.0]
提案されたサーロゲート$F_beta$損失関数の勾配パスは、$F_beta$スコアの大きなサンプル限界の勾配パスを近似する。
F_beta$損失関数はクラス不均衡下でのF_beta$スコアの最適化に有効であることを示す。
論文 参考訳(メタデータ) (2021-04-03T18:36:23Z) - Piecewise Linear Regression via a Difference of Convex Functions [50.89452535187813]
本稿では,データに対する凸関数(DC関数)の差を利用した線形回帰手法を提案する。
実際に実装可能であることを示すとともに,実世界のデータセット上で既存の回帰/分類手法に匹敵する性能を有することを実証的に検証した。
論文 参考訳(メタデータ) (2020-07-05T18:58:47Z) - Supervised Learning: No Loss No Cry [51.07683542418145]
教師付き学習は最小化するために損失関数の仕様を必要とする。
本稿では,Kakade et al. (2011)のSLIsotronアルゴリズムを新しいレンズで再検討する。
損失を学習するための原則的な手順をいかに提供するかを示す。
論文 参考訳(メタデータ) (2020-02-10T05:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。