Fugu-MT 論文翻訳(概要): Numerical Error Analysis of Large Language Models

論文の概要: Numerical Error Analysis of Large Language Models

arxiv url: http://arxiv.org/abs/2503.10251v1
Date: Thu, 13 Mar 2025 10:53:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.632004
Title: Numerical Error Analysis of Large Language Models
Title（参考訳）: 大規模言語モデルの数値誤差解析
Authors: Stanislav Budzinskiy, Wenyi Fang, Longbin Zeng, Philipp Petersen,
Abstract要約: 本稿では,トランスアーキテクチャの前方通過におけるラウンドオフ誤差の影響を理論的に解析する。また, 境界の実用的妥当性を示す数値実験も行った。
参考スコア（独自算出の注目度）: 0.562479170374811
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models based on transformer architectures have become integral to state-of-the-art natural language processing applications. However, their training remains computationally expensive and exhibits instabilities, some of which are expected to be caused by finite-precision computations. We provide a theoretical analysis of the impact of round-off errors within the forward pass of a transformer architecture which yields fundamental bounds for these effects. In addition, we conduct a series of numerical experiments which demonstrate the practical relevance of our bounds. Our results yield concrete guidelines for choosing hyperparameters that mitigate round-off errors, leading to more robust and stable inference.
Abstract（参考訳）: トランスフォーマーアーキテクチャに基づく大規模言語モデルは、最先端の自然言語処理アプリケーションに不可欠なものとなっている。しかし、それらのトレーニングは計算に高価であり、不安定性を示しており、そのうちのいくつかは有限精度の計算によって引き起こされることが期待されている。本稿では, 変圧器アーキテクチャの前方通過におけるラウンドオフ誤差の影響を理論的に解析し, これらの効果に基礎的限界を与える。さらに、我々は境界の実用的妥当性を示す一連の数値実験を行った。その結果,ラウンドオフ誤差を緩和するハイパーパラメータを選択するための具体的なガイドラインが得られ,より堅牢で安定した推論が導かれる。

関連論文リスト

Analyzing limits for in-context learning [2.1178416840822027]
インコンテキスト学習(ICL)は、基本的な振る舞いを明らかにするための制御された設定として関数正規化タスクに焦点を当て、スクラッチから訓練されたトランスフォーマーモデルである。我々は、変圧器モデルが正規化(非線型)関数の未確認クラスを一般化し近似することができることを実証的に示すが、それらは特定の値を超える一般化はできない。
論文参考訳（メタデータ） (2025-02-05T11:03:36Z)
Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文参考訳（メタデータ） (2024-11-05T12:26:25Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Hybrid data-driven and physics-informed regularized learning of cyclic plasticity with Neural Networks [0.0]
提案したモデルアーキテクチャは、既存の文献のソリューションに比べてシンプルで効率的である。この手法の検証はアームストロング・フレデリックのキネマティック・ハードニング・モデルを用いて得られたサロゲートデータを用いて行う。
論文参考訳（メタデータ） (2024-03-04T07:09:54Z)
Exploiting Activation Sparsity with Dense to Dynamic-k Mixture-of-Experts Conversion [4.716845031095804]
トランスフォーマーモデルは、高い計算要求のため、実用的な制限に直面する可能性がある。このようなモデルは、ネットワークの一部を等価なMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる。本研究では,基本モデルの活性化間隔を適切に正規化することにより,変換効率を大幅に向上できることを実証する。
論文参考訳（メタデータ） (2023-10-06T16:34:51Z)
Structured Radial Basis Function Network: Modelling Diversity for Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文参考訳（メタデータ） (2023-09-02T01:27:53Z)
Towards Characterizing Domain Counterfactuals For Invertible Latent Causal Models [15.817239008727789]
本研究では,異なるドメインで生成された場合,サンプルがどのようなものであったのかを仮定した,ドメイン反事実と呼ばれる特定のタイプの因果クエリを解析する。本研究では, 潜在構造因果モデル (SCM) の回復は, ドメイン・デファクト・デファクトを推定するために不要であることを示す。また、モデル生成過程を単純化し、生成モデル推定を行うための理論的基盤となる実用的なアルゴリズムも開発する。
論文参考訳（メタデータ） (2023-06-20T04:19:06Z)
What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文参考訳（メタデータ） (2023-05-30T21:23:47Z)
A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文参考訳（メタデータ） (2022-10-21T15:12:37Z)
RIGID: Robust Linear Regression with Missing Data [7.638042073679073]
機能に欠落したエントリで線形回帰を行うための堅牢なフレームワークを提案する。本稿では,変数間の依存性を自然に考慮した定式化が,凸プログラムに還元されることを示す。詳細な分析に加えて,提案するフレームワークの挙動を分析し,技術的議論を行う。
論文参考訳（メタデータ） (2022-05-26T21:10:17Z)
Long Story Short: Omitted Variable Bias in Causal Machine Learning [26.60315380737132]
我々は、幅広い共通因果パラメータに対する省略変数バイアスの理論を開発する。省略変数の最大説明力に対する簡易な妥当性判定は,バイアスの大きさを限定するのに十分であることを示す。本研究では,現代の機械学習アルゴリズムを応用して推定を行う,フレキシブルで効率的な統計的推論手法を提案する。
論文参考訳（メタデータ） (2021-12-26T15:38:23Z)
Bias-Variance Tradeoffs in Single-Sample Binary Gradient Estimators [100.58924375509659]
ストレートスルー (ST) 推定器はその単純さと効率性から人気を得た。計算の複雑さを低く保ちながら、STよりも改善するいくつかの手法が提案された。我々は、トレードオフを理解し、元来主張された特性を検証するために、これらの手法のバイアスとばらつきの理論解析を行う。
論文参考訳（メタデータ） (2021-10-07T15:16:07Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。