Fugu-MT 論文翻訳(概要): A Post-Training Enhanced Optimization Approach for Small Language Models

論文の概要: A Post-Training Enhanced Optimization Approach for Small Language Models

arxiv url: http://arxiv.org/abs/2411.02939v1
Date: Tue, 05 Nov 2024 09:32:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.550537
Title: A Post-Training Enhanced Optimization Approach for Small Language Models
Title（参考訳）: 学習後最適化による小言語モデルの最適化
Authors: Keke Zhai,
Abstract要約: 本稿では,小言語モデルに対する連続的な学習後アライメントデータ構築法を提案する。本手法のコアは大規模モデルのデータガイダンスに基づいて,アライメントデータの多様性と精度を最適化する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper delves into the continuous post-training optimization methods for small language models, and proposes a continuous post-training alignment data construction method for small language models. The core of this method is based on the data guidance of large models, optimizing the diversity and accuracy of alignment data. In addition, to verify the effectiveness of the methods in this paper, we used Qwen2-0.5B-Instruct model as the baseline model for small language models, using the alignment dataset constructed by our proposed method, we trained and compared several groups of experiments, including SFT (Supervised Fine Tuning) post-training experiment and KTO (Kahneman Tversky optimization) post-training experiment, as well as SFT-KTO two-stage post-training experiment and model weight fusion experiment. Finally, we evaluated and analyzed the performance of post-training models, and confirmed that the continuous post-training optimization method proposed by us can significantly improve the performance of small language models.
Abstract（参考訳）: 本稿では,小言語モデルの連続学習後最適化手法について検討し,小言語モデルの連続学習後アライメントデータ構築法を提案する。本手法のコアは大規模モデルのデータガイダンスに基づいて,アライメントデータの多様性と精度を最適化する。さらに,本手法の有効性を検証するために,提案手法で構築したアライメントデータセットを用いて,小言語モデルのベースラインモデルとしてQwen2-0.5B-インストラクトモデルを用いて,SFT(Supervised Fine Tuning)ポストトレーニング実験,KTO(Kahneman Tversky Optimization)ポストトレーニング実験,SFT-KTO2段階後トレーニング実験,モデルウェイトフュージョン実験などの実験群を比較した。最後に, 学習後モデルの性能評価と解析を行い, 提案した連続学習後最適化手法により, 小言語モデルの性能を大幅に向上させることができることを確認した。

関連論文リスト

Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文参考訳（メタデータ） (2024-10-29T17:24:18Z)
AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs [61.13296177652599]
本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。 GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
論文参考訳（メタデータ） (2024-07-29T17:06:30Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文参考訳（メタデータ） (2024-06-25T04:01:32Z)
Repurposing Language Models into Embedding Models: Finding the Compute-Optimal Recipe [10.34105218186634]
本稿では,テキスト埋め込みモデルに対して,計算-最適方式で対照的に学習する方法について検討する。我々の革新は、異なる計算予算レベルでのテキスト埋め込みモデルのモデルサイズ、データ量、微調整方法の最適構成を生成するアルゴリズムである。
論文参考訳（メタデータ） (2024-06-06T15:22:33Z)
Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,繰り返しのトレーニングにおいて安定な機械学習モデルのシーケンスを見つける手法を提案する。最適モデルの復元が保証される混合整数最適化の定式化を開発する。本手法は, 予測力の小さい, 制御可能な犠牲を伴い, 厳密に訓練されたモデルよりも強い安定性を示す。
論文参考訳（メタデータ） (2024-03-28T22:45:38Z)
CoLLiE: Collaborative Training of Large Language Models in an Efficient Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文参考訳（メタデータ） (2023-12-01T08:02:16Z)
Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文参考訳（メタデータ） (2023-10-24T23:29:06Z)
Improving Generalization of Pre-trained Language Models via Stochastic Weight Averaging [25.856435988848638]
知識蒸留(KD)は、コンパクトな事前学習言語モデル(PLM)の一般化を改善するための一般的な技術である。我々は、より平坦な最小値への収束を促す手法であるウェイト平均化(SWA)を微調整 PLM に適用する。我々の適応は余分なコストを伴わずに一般化を改善することを実証する。
論文参考訳（メタデータ） (2022-12-12T15:09:56Z)
Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-12T04:42:49Z)
METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文参考訳（メタデータ） (2022-04-13T21:39:15Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。