Fugu-MT 論文翻訳(概要): Judging Adam: Studying the Performance of Optimization Methods on ML4SE Tasks

論文の概要: Judging Adam: Studying the Performance of Optimization Methods on ML4SE Tasks

arxiv url: http://arxiv.org/abs/2303.03540v1
Date: Mon, 6 Mar 2023 22:49:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-08 17:12:55.608094
Title: Judging Adam: Studying the Performance of Optimization Methods on ML4SE Tasks
Title（参考訳）: 判断するAdam:ML4SEタスクにおける最適化手法の性能に関する研究
Authors: Dmitry Pasechnyuk, Anton Prazdnichnykh, Mikhail Evtikhiev, Timofey Bryksin
Abstract要約: ソースコードの深層学習モデルを用いて各種の性能を検証した。 Anaheadの選択は、モデルの品質に大きな影響を与えます。 ML4SEコミュニティは、コード関連のディープラーニングタスクのデフォルトとして、Adamを使うべきだ、と提案する。
参考スコア（独自算出の注目度）: 2.8961929092154697
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Solving a problem with a deep learning model requires researchers to optimize the loss function with a certain optimization method. The research community has developed more than a hundred different optimizers, yet there is scarce data on optimizer performance in various tasks. In particular, none of the benchmarks test the performance of optimizers on source code-related problems. However, existing benchmark data indicates that certain optimizers may be more efficient for particular domains. In this work, we test the performance of various optimizers on deep learning models for source code and find that the choice of an optimizer can have a significant impact on the model quality, with up to two-fold score differences between some of the relatively well-performing optimizers. We also find that RAdam optimizer (and its modification with the Lookahead envelope) is the best optimizer that almost always performs well on the tasks we consider. Our findings show a need for a more extensive study of the optimizers in code-related tasks, and indicate that the ML4SE community should consider using RAdam instead of Adam as the default optimizer for code-related deep learning tasks.
Abstract（参考訳）: ディープラーニングモデルで問題を解決するには、ある最適化手法で損失関数を最適化する必要がある。研究コミュニティは100以上の異なるオプティマイザを開発したが、さまざまなタスクにおけるオプティマイザのパフォーマンスに関するデータは乏しい。特に、どのベンチマークもソースコード関連の問題に対するオプティマイザのパフォーマンスをテストしていない。しかし、既存のベンチマークデータは、特定のドメインに対してより効率的な最適化が可能であることを示している。本研究では,ソースコードの深層学習モデルにおける各種オプティマイザの性能を検証し,オプティマイザの選択がモデル品質に大きな影響を与え,比較的優れたオプティマイザの最大2倍のスコア差が生じることを確認する。また、RAdamオプティマイザ(およびLookaheadエンベロープによる修正)が、ほぼ常に考慮しているタスクでうまく機能する最適なオプティマイザであることもわかりました。以上の結果から,コード関連タスクにおける最適化のより広範な研究の必要性が示唆され,ML4SEコミュニティではAdamの代わりにRAdamをコード関連ディープラーニングタスクのデフォルトオプティマイザとして使用すべきであることが示唆された。

関連論文リスト

metaTextGrad: Automatically optimizing language model optimizers [28.39185344194562]
大規模言語モデル(LLM)は、学習アルゴリズム、評価、最適化タスクにますます使われている。近年の研究では、モデルプロンプトやデモ、予測自体、その他のコンポーネントの自動最適化にLLMベースの手法を用いることで、AIシステムのパフォーマンスが大幅に向上することが示されている。提案手法は,メタプロンプトとメタ構造という2つの重要なコンポーネントから構成される。この2つの組み合わせは,複数のベンチマークにおけるパフォーマンスを著しく向上させ,最高のベースラインと比較して平均6%の絶対性能向上を実現している。
論文参考訳（メタデータ） (2025-05-24T05:40:38Z)
Iterative or Innovative? A Problem-Oriented Perspective for Code Optimization [81.88668100203913]
大規模言語モデル(LLM)は、幅広いプログラミングタスクを解く上で強力な能力を示している。本稿では,パフォーマンス向上に着目したコード最適化について検討する。
論文参考訳（メタデータ） (2024-06-17T16:10:10Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。 AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文参考訳（メタデータ） (2024-01-17T00:16:46Z)
Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。 OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文参考訳（メタデータ） (2023-09-07T00:07:15Z)
Improving Performance Insensitivity of Large-scale Multiobjective Optimization via Monte Carlo Tree Search [7.34812867861951]
モンテカルロ木探索に基づく大規模多目的最適化問題の解法を提案する。提案手法は,モンテカルロ木上に新たなノードを構築するための決定変数をサンプリングし,最適化と評価を行う。大規模な決定変数による性能感度を低下させるために、さらなる探索のための評価が良いノードを選択する。
論文参考訳（メタデータ） (2023-04-08T17:15:49Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
Practical tradeoffs between memory, compute, and performance in learned optimizers [46.04132441790654]
我々は、多くの学習や手作業で設計された機能に対して、メモリ、計算、パフォーマンスのトレードオフを特定し、定量化する。分析を活用して、従来の作業よりも速く、より効率的に学習可能なものを構築するのです。
論文参考訳（メタデータ） (2022-03-22T16:36:36Z)
Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか? まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文参考訳（メタデータ） (2022-03-12T16:07:57Z)
Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文参考訳（メタデータ） (2021-03-23T20:46:20Z)
Descending through a Crowded Valley - Benchmarking Deep Learning Optimizers [29.624308090226375]
本研究は,これらの逸話を,少なくとも証拠に裏付けられた逸話に置き換えることを目的としている。そのために、特に人気のある15のディープラーニングの、広範囲で標準化されたベンチマークを実行します。我々のオープンソースの成果は、新しい最適化手法のより有意義な評価のために、挑戦的でよく調整されたベースラインとして利用可能である。
論文参考訳（メタデータ） (2020-07-03T08:19:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。