Fugu-MT 論文翻訳(概要): Revisiting Checkpoint Averaging for Neural Machine Translation

論文の概要: Revisiting Checkpoint Averaging for Neural Machine Translation

arxiv url: http://arxiv.org/abs/2210.11803v1
Date: Fri, 21 Oct 2022 08:29:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 13:13:56.963553
Title: Revisiting Checkpoint Averaging for Neural Machine Translation
Title（参考訳）: ニューラルマシン翻訳のためのチェックポイント平均化の再検討
Authors: Yingbo Gao, Christian Herold, Zijian Yang, Hermann Ney
Abstract要約: チェックポイント平均化は、収束ニューラルネットワーク翻訳モデルの性能を高めるためのシンプルで効果的な方法である。本研究では,チェックポイント平均化の概念を再考し,いくつかの拡張について考察する。
参考スコア（独自算出の注目度）: 44.37101354412253
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Checkpoint averaging is a simple and effective method to boost the performance of converged neural machine translation models. The calculation is cheap to perform and the fact that the translation improvement almost comes for free, makes it widely adopted in neural machine translation research. Despite the popularity, the method itself simply takes the mean of the model parameters from several checkpoints, the selection of which is mostly based on empirical recipes without many justifications. In this work, we revisit the concept of checkpoint averaging and consider several extensions. Specifically, we experiment with ideas such as using different checkpoint selection strategies, calculating weighted average instead of simple mean, making use of gradient information and fine-tuning the interpolation weights on development data. Our results confirm the necessity of applying checkpoint averaging for optimal performance, but also suggest that the landscape between the converged checkpoints is rather flat and not much further improvement compared to simple averaging is to be obtained.
Abstract（参考訳）: チェックポイント平均化は、収束ニューラルネットワーク翻訳モデルの性能を高めるためのシンプルで効果的な方法である。計算は安価で、翻訳の改善がほぼ無料であるという事実は、ニューラルネットワーク翻訳研究に広く採用されている。人気にもかかわらず、この方法は単にいくつかのチェックポイントからモデルパラメータの平均を取り、その選択は、多くの正当性のない経験的なレシピに基づいている。本研究では,チェックポイント平均化の概念を再考し,いくつかの拡張について考察する。具体的には,異なるチェックポイント選択戦略,単純な平均ではなく重み付け平均の算出,勾配情報の利用,開発データへの補間重み付けの微調整といったアイデアを試す。その結果, 最適性能にチェックポイント平均化を適用する必要性が確認できたが, 収束したチェックポイント間の景観は平坦であり, 単純な平均化に比べ, それ以上の改善は得られないことが示唆された。

関連論文リスト

Parameter-Efficient Checkpoint Merging via Metrics-Weighted Averaging [2.9761595094633435]
チェックポイントマージ(Checkpoint merging)は、複数のモデルスナップショットを1つの優れたモデルに組み合わせるテクニックである。本稿では,パラメータ効率のよい微調整の文脈におけるチェックポイントのマージについて検討する。本稿では,パラメータの重み付けによるモデルチェックポイントのマージにMWA(Metrics-Weighted Averaging)を提案する。
論文参考訳（メタデータ） (2025-04-23T05:11:21Z)
SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。離散選択問題を連続的な部分集合最適化フレームワークに変換する。両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文参考訳（メタデータ） (2025-02-14T12:35:21Z)
FLOPS: Forward Learning with OPtimal Sampling [1.694989793927645]
勾配に基づく計算手法は、最近、クエリとも呼ばれる前方通過のみによる学習に焦点が当てられている。従来の前方学習はモンテカルロサンプリングによる正確な勾配推定のために各データポイントで膨大なクエリを消費する。本稿では,評価精度と計算効率のバランスを良くするために,訓練中の各データに対して最適なクエリ数を割り当てることを提案する。
論文参考訳（メタデータ） (2024-10-08T12:16:12Z)
Using Low-Discrepancy Points for Data Compression in Machine Learning: An Experimental Comparison [0.0]
ニューラルネットワークのトレーニングのために,低差分点に基づく2つの手法を探索し,大規模なデータセットを削減する。 1つ目はDickとFeischlの手法で、これはデジタルネットと平均化手順に依存している。ディジタルネットを用いた第2の手法を構築するが、平均化ではなくクラスタリングを行う。
論文参考訳（メタデータ） (2024-07-10T08:07:55Z)
Graspness Discovery in Clutters for Fast and Accurate Grasp Detection [57.81325062171676]
グレープネス(graspness)とは、散らばった場面で把握可能な領域を区別する幾何学的手がかりに基づく品質である。本研究では,探索過程を近似するカスケード把握モデルを構築した。大規模なベンチマークであるGraspNet-1Billionの実験では,提案手法が従来の手法よりも大きなマージンで優れていたことが示されている。
論文参考訳（メタデータ） (2024-06-17T02:06:47Z)
Boost Neural Networks by Checkpoints [9.411567653599358]
本稿では,ディープニューラルネットワーク(DNN)のチェックポイントをアンサンブルする新しい手法を提案する。同じトレーニング予算で,Cifar-100では4.16%,Tiny-ImageNetでは6.96%,ResNet-110アーキテクチャでは6.96%の誤差を達成した。
論文参考訳（メタデータ） (2021-10-03T09:14:15Z)
Rethinking Counting and Localization in Crowds:A Purely Point-Based Framework [59.578339075658995]
そこで本稿では,共同クラウドカウントと個別ローカライゼーションのための純粋にポイントベースのフレームワークを提案する。我々は、P2PNet(Point to Point Network)と呼ばれる、このフレームワークの下で直感的なソリューションを設計する。
論文参考訳（メタデータ） (2021-07-27T11:41:50Z)
Ranking Neural Checkpoints [57.27352551718646]
本稿では、下流タスクへの変換学習のための事前訓練されたディープニューラルネットワーク(DNN)のランキングについて検討する。ニューラルチェックポイントランキングベンチマーク(NeuCRaB)を構築し,直感的なランキング尺度について検討する。以上の結果から,チェックポイントによって抽出された特徴の線形分離性は,伝達可能性の強い指標であることが示唆された。
論文参考訳（メタデータ） (2020-11-23T04:05:46Z)
Sequential Changepoint Detection in Neural Networks with Checkpoints [11.763229353978321]
本稿では,オンライン変化点検出と同時モデル学習のためのフレームワークを提案する。次々に一般化された確率比テストを行うことにより、経時的に変化点を検出する。オンラインベイズ変化点検出と比較して性能が向上した。
論文参考訳（メタデータ） (2020-10-06T21:49:54Z)
Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文参考訳（メタデータ） (2020-07-20T12:07:48Z)
Learning a Unified Sample Weighting Network for Object Detection [113.98404690619982]
地域サンプリングや重み付けは、現代の地域ベースの物体検出器の成功に極めて重要である。サンプル重み付けはデータ依存でタスク依存であるべきだと我々は主張する。サンプルのタスク重みを予測するための統一的なサンプル重み付けネットワークを提案する。
論文参考訳（メタデータ） (2020-06-11T16:19:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。