論文の概要: Why does CTC result in peaky behavior?
- arxiv url: http://arxiv.org/abs/2105.14849v1
- Date: Mon, 31 May 2021 10:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 02:32:14.075943
- Title: Why does CTC result in peaky behavior?
- Title(参考訳): なぜCTCはピーク行動をもたらすのか?
- Authors: Albert Zeyer and Ralf Schl\"uter and Hermann Ney
- Abstract要約: CTC損失と関連するトレーニング基準のピーク挙動と勾配勾配収束特性を形式解析する。
我々の分析は、なぜピーク性行動が起こるのか、いつそれが最適でないのかを深く理解する。
- 参考スコア(独自算出の注目度): 65.73442960456013
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The peaky behavior of CTC models is well known experimentally. However, an
understanding about why peaky behavior occurs is missing, and whether this is a
good property. We provide a formal analysis of the peaky behavior and gradient
descent convergence properties of the CTC loss and related training criteria.
Our analysis provides a deep understanding why peaky behavior occurs and when
it is suboptimal. On a simple example which should be trivial to learn for any
model, we prove that a feed-forward neural network trained with CTC from
uniform initialization converges towards peaky behavior with a 100% error rate.
Our analysis further explains why CTC only works well together with the blank
label. We further demonstrate that peaky behavior does not occur on other
related losses including a label prior model, and that this improves
convergence.
- Abstract(参考訳): CTCモデルのピーク挙動は実験的によく知られている。
しかし、なぜピーク行動が起こるのか、またそれが良い性質であるかどうかについての理解が欠落している。
ctc損失のピーク挙動と勾配降下収束特性および関連する訓練条件の形式的解析を行った。
我々の分析は、なぜピーク時行動が起こるのか、いつそれが最適であるかを深く理解する。
どんなモデルでも簡単に学習できる簡単な例では、一様初期化からctcで訓練されたフィードフォワードニューラルネットワークが100%の誤差率でピーク動作へと収束することを証明する。
我々はCTCがブランクラベルとうまく連携する理由をさらに分析した。
さらに,ラベル先行モデルを含む他の関連する損失に対してはピーク動作が発生せず,収束性が向上することを示す。
関連論文リスト
- Less Peaky and More Accurate CTC Forced Alignment by Label Priors [57.48450905027108]
接続性時間分類(CTC)モデルはピーク出力分布を持つことが知られている。
本稿では, CTCのピーク動作を緩和し, 強制アライメント生成への適合性を向上させることを目的とする。
我々のCTCモデルはピーク後部を減らし、トークンのオフセットをより正確に予測することができる。
論文 参考訳(メタデータ) (2024-04-22T17:40:08Z) - Quantifying the Sensitivity of Inverse Reinforcement Learning to
Misspecification [72.08225446179783]
逆強化学習は、エージェントの行動からエージェントの好みを推測することを目的としている。
これを行うには、$pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。
我々は、IRL問題が行動モデルの不特定性にどれほど敏感であるかを分析する。
論文 参考訳(メタデータ) (2024-03-11T16:09:39Z) - On the Convergence of CART under Sufficient Impurity Decrease Condition [18.454596304803868]
回帰条件下でのCARTの収束率について検討する。
誤差境界が定数や対数係数以上でさらに改善できないことを示す例を示す。
本稿では、この概念の実用性を説明するために、非パラメトリック推定におけるいくつかのよく知られた関数クラスについて論じる。
論文 参考訳(メタデータ) (2023-10-26T03:01:11Z) - Towards Demystifying the Generalization Behaviors When Neural Collapse
Emerges [132.62934175555145]
Neural Collapse(NC)は、トレーニング末期(TPT)におけるディープニューラルネットワークのよく知られた現象である
本稿では,列車の精度が100%に達した後も,継続訓練がテストセットの精度向上に繋がる理由を理論的に説明する。
我々はこの新たに発見された性質を「非保守的一般化」と呼ぶ。
論文 参考訳(メタデータ) (2023-10-12T14:29:02Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Catastrophic overfitting can be induced with discriminative non-robust
features [95.07189577345059]
自然画像の典型的データセットの制御による一段階AT法におけるCOの開始について検討した。
本研究は, 一見無害な画像の注入により, 従来よりはるかに小さいエプシロン$値でCOを誘導できることを示唆する。
論文 参考訳(メタデータ) (2022-06-16T15:22:39Z) - CP Degeneracy in Tensor Regression [11.193867567895353]
CANDECOMP/PARAFAC (CP) の低ランク制約は (金化) $M$-estimation の係数パラメータに課されることが多い。
これは低ランク近似問題におけるCP縮退現象(CP degeneracy)と密接に関連している。
論文 参考訳(メタデータ) (2020-10-22T16:08:44Z) - Triple descent and the two kinds of overfitting: Where & why do they
appear? [16.83019116094311]
明らかに類似しているにもかかわらず、ニューラルネットワークがノイズレグレッションタスクに適用された場合、両方のピークが共存可能であることを示す。
ピークの相対サイズは活性化関数の非線形性の度合いによって制御される。
このピークは非線形性によって暗黙的に正則化されることが示され、そのため高雑音下でのみ正則化される。
論文 参考訳(メタデータ) (2020-06-05T15:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。