論文の概要: Revisiting Checkpoint Averaging for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2210.11803v1
- Date: Fri, 21 Oct 2022 08:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:13:56.963553
- Title: Revisiting Checkpoint Averaging for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のためのチェックポイント平均化の再検討
- Authors: Yingbo Gao, Christian Herold, Zijian Yang, Hermann Ney
- Abstract要約: チェックポイント平均化は、収束ニューラルネットワーク翻訳モデルの性能を高めるためのシンプルで効果的な方法である。
本研究では,チェックポイント平均化の概念を再考し,いくつかの拡張について考察する。
- 参考スコア(独自算出の注目度): 44.37101354412253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Checkpoint averaging is a simple and effective method to boost the
performance of converged neural machine translation models. The calculation is
cheap to perform and the fact that the translation improvement almost comes for
free, makes it widely adopted in neural machine translation research. Despite
the popularity, the method itself simply takes the mean of the model parameters
from several checkpoints, the selection of which is mostly based on empirical
recipes without many justifications. In this work, we revisit the concept of
checkpoint averaging and consider several extensions. Specifically, we
experiment with ideas such as using different checkpoint selection strategies,
calculating weighted average instead of simple mean, making use of gradient
information and fine-tuning the interpolation weights on development data. Our
results confirm the necessity of applying checkpoint averaging for optimal
performance, but also suggest that the landscape between the converged
checkpoints is rather flat and not much further improvement compared to simple
averaging is to be obtained.
- Abstract(参考訳): チェックポイント平均化は、収束ニューラルネットワーク翻訳モデルの性能を高めるためのシンプルで効果的な方法である。
計算は安価で、翻訳の改善がほぼ無料であるという事実は、ニューラルネットワーク翻訳研究に広く採用されている。
人気にもかかわらず、この方法は単にいくつかのチェックポイントからモデルパラメータの平均を取り、その選択は、多くの正当性のない経験的なレシピに基づいている。
本研究では,チェックポイント平均化の概念を再考し,いくつかの拡張について考察する。
具体的には,異なるチェックポイント選択戦略,単純な平均ではなく重み付け平均の算出,勾配情報の利用,開発データへの補間重み付けの微調整といったアイデアを試す。
その結果, 最適性能にチェックポイント平均化を適用する必要性が確認できたが, 収束したチェックポイント間の景観は平坦であり, 単純な平均化に比べ, それ以上の改善は得られないことが示唆された。
関連論文リスト
- Direct Superpoints Matching for Robust Point Cloud Registration [7.984021167919321]
本稿では,グローバルなソフトマックス層をエンド・ツー・エンド方式で活用することで,スーパーポイントと直接マッチングする,単純かつ効果的な手法を提案する。
提案手法は,特徴表現学習,スーパーポイントマッチング,変換推定など,さまざまなコンポーネントの協調最適化を可能にする。
論文 参考訳(メタデータ) (2023-07-03T21:33:40Z) - Recycling Scraps: Improving Private Learning by Leveraging Intermediate
Checkpoints [17.654346227497403]
本研究は,DPトレーニングの有用性を向上させるために,中間チェックポイントを集約する様々な手法について検討する。
CIFAR10およびStackOverflowデータセットの既存のSOTAよりも,チェックポイントアグリゲーションが予測精度を大幅に向上させることを示す。
最後に,最後の数個のチェックポイントからのサンプルのばらつきは,DPランの最終モデルのばらつきをよく近似できることを示す。
論文 参考訳(メタデータ) (2022-10-04T19:21:00Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - Boost Neural Networks by Checkpoints [9.411567653599358]
本稿では,ディープニューラルネットワーク(DNN)のチェックポイントをアンサンブルする新しい手法を提案する。
同じトレーニング予算で,Cifar-100では4.16%,Tiny-ImageNetでは6.96%,ResNet-110アーキテクチャでは6.96%の誤差を達成した。
論文 参考訳(メタデータ) (2021-10-03T09:14:15Z) - Rethinking Counting and Localization in Crowds:A Purely Point-Based
Framework [59.578339075658995]
そこで本稿では,共同クラウドカウントと個別ローカライゼーションのための純粋にポイントベースのフレームワークを提案する。
我々は、P2PNet(Point to Point Network)と呼ばれる、このフレームワークの下で直感的なソリューションを設計する。
論文 参考訳(メタデータ) (2021-07-27T11:41:50Z) - Ranking Neural Checkpoints [57.27352551718646]
本稿では、下流タスクへの変換学習のための事前訓練されたディープニューラルネットワーク(DNN)のランキングについて検討する。
ニューラルチェックポイントランキングベンチマーク(NeuCRaB)を構築し,直感的なランキング尺度について検討する。
以上の結果から,チェックポイントによって抽出された特徴の線形分離性は,伝達可能性の強い指標であることが示唆された。
論文 参考訳(メタデータ) (2020-11-23T04:05:46Z) - Sequential Changepoint Detection in Neural Networks with Checkpoints [11.763229353978321]
本稿では,オンライン変化点検出と同時モデル学習のためのフレームワークを提案する。
次々に一般化された確率比テストを行うことにより、経時的に変化点を検出する。
オンラインベイズ変化点検出と比較して性能が向上した。
論文 参考訳(メタデータ) (2020-10-06T21:49:54Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z) - Learning a Unified Sample Weighting Network for Object Detection [113.98404690619982]
地域サンプリングや重み付けは、現代の地域ベースの物体検出器の成功に極めて重要である。
サンプル重み付けはデータ依存でタスク依存であるべきだと我々は主張する。
サンプルのタスク重みを予測するための統一的なサンプル重み付けネットワークを提案する。
論文 参考訳(メタデータ) (2020-06-11T16:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。