論文の概要: Silent Inconsistency in Data-Parallel Full Fine-Tuning: Diagnosing Worker-Level Optimization Misalignment
- arxiv url: http://arxiv.org/abs/2602.14462v1
- Date: Mon, 16 Feb 2026 04:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.146176
- Title: Silent Inconsistency in Data-Parallel Full Fine-Tuning: Diagnosing Worker-Level Optimization Misalignment
- Title(参考訳): データ並列フルファインチューニングにおける無声不整合:労働者レベル最適化ミスサライメントの診断
- Authors: Hong Li, Zhen Zhou, Honggang Zhang, Yuping Luo, Xinyue Wang, Han Gong, Zhiyuan Liu,
- Abstract要約: クロスワーカーの損失と勾配のばらつきは、従来の監視信号では見えない。
本稿では,標準パイプラインで容易に利用できるトレーニング信号を用いて,作業者レベルの一貫性を定量化する,モデルに依存しない診断フレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.352639822596146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-parallel (DP) training with synchronous all-reduce is a dominant paradigm for full-parameter fine-tuning of large language models (LLMs). While parameter synchronization guarantees numerical equivalence of model weights after each iteration, it does not necessarily imply alignment of worker-level optimization dynamics before gradient aggregation. This paper identifies and studies this latent mismatch, termed \emph{silent inconsistency}, where cross-worker divergence in losses and gradients can remain invisible under conventional aggregated monitoring signals. We propose a lightweight, model-agnostic diagnostic framework that quantifies worker-level consistency using training signals readily available in standard pipelines. Specifically, we introduce three complementary metrics: loss dispersion, gradient-norm dispersion, and gradient-direction consistency measured by inter-worker cosine similarity. The proposed metrics incur negligible overhead and require no modification to model architecture, synchronization mechanisms, or optimization algorithms. We validate the framework by fully fine-tuning the 1B-parameter \texttt{openPangu-Embedded-1B-V1.1} model on the \texttt{tatsu-lab/alpaca} dataset using an 8-NPU DP setup, under controlled perturbations of cross-rank stochasticity. Experimental results show that progressively desynchronized data shuffling and random seeds lead to substantial increases in loss/gradient dispersion and reduced directional alignment, despite smooth globally averaged loss curves. These findings demonstrate that the proposed indicators provide actionable visibility into hidden instability modes in large-scale DP fine-tuning, enabling more reliable diagnosis and configuration assessment.
- Abstract(参考訳): データ並列(DP)トレーニングは、大規模言語モデル(LLM)のフルパラメータ微調整において、主要なパラダイムである。
パラメータ同期は、反復後のモデル重みの数値的等価性を保証するが、勾配凝集の前に労働者レベルの最適化ダイナミクスを必ずしも一致させるわけではない。
本稿では,従来の集積監視信号では,クロスワーカーによる損失と勾配のばらつきが見えない「emph{silent inconsistency}」と呼ばれるこの潜伏ミスマッチを特定し,研究する。
本稿では,標準的なパイプラインで容易に利用できるトレーニング信号を用いて,作業者レベルの一貫性を定量化する,軽量でモデルに依存しない診断フレームワークを提案する。
具体的には、損失分散、勾配-ノルム分散、および労働者間コサイン類似度によって測定される勾配-方向整合性の3つの相補的指標を紹介する。
提案したメトリクスは無視可能なオーバーヘッドを発生させ、モデルアーキテクチャ、同期機構、最適化アルゴリズムを変更する必要はない。
我々は, 8-NPU DP セットアップを用いて, 1B-parameter \texttt{openPangu-Embedded-1B-V1.1} モデルに対して, クロスランク確率の制御摂動の下で, 1B-parameter \texttt{openPangu-Embedded-1B-V1.1} モデルを完全に微調整することによって, フレームワークを検証した。
実験結果から, 逐次非同期データシャッフルとランダムシードは, 円滑な平均損失曲線にもかかわらず, 損失/緩やかな分散と方向アライメントの大幅な増加をもたらすことが示された。
これらの結果から,提案指標は大規模DP微調整における隠れ不安定モードの可視性を示し,より信頼性の高い診断と構成評価を可能にした。
関連論文リスト
- Efficient Sampling with Discrete Diffusion Models: Sharp and Adaptive Guarantees [9.180350432640912]
連続時間マルコフ連鎖(CTMC)の定式化によるスコアベース離散拡散モデルのサンプリング効率について検討した。
一様離散拡散に対して、$$-leapingアルゴリズムは位数$tilde O(d/varepsilon)$の複雑さを達成することを示す。
離散拡散をマスキングするために,本質的な情報理論量によって収束率を制御した$$-leapingサンプルラを導入する。
論文 参考訳(メタデータ) (2026-02-16T18:48:17Z) - Controllable Probabilistic Forecasting with Stochastic Decomposition Layers [1.3995263206621]
本稿では、決定論的機械学習気象モデルをアンサンブルシステムに変換するための分解層(SDL)を提案する。
SDLは3つのデコーダスケールでの学習摂動を、潜在駆動変調、画素ごとのノイズ、チャネルスケーリングを通じて適用する。
転送学習を通じてWXFormerに適用する場合、SDLはベースラインモデルをトレーニングするために必要な計算コストの2%未満を必要とする。
論文 参考訳(メタデータ) (2025-12-21T17:10:00Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Federated Smoothing Proximal Gradient for Quantile Regression with Non-Convex Penalties [3.269165283595478]
IoT(Internet-of-Things)の分散センサーは、大量のスパースデータを生成する。
本稿では, 滑らか化機構をそのビューに統合し, 精度と計算速度を両立させる, 結合型滑らか化近位勾配(G)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-10T21:50:19Z) - Robust Fully-Asynchronous Methods for Distributed Training over General Architecture [11.480605289411807]
分散機械学習問題における完全な同期は、レイテンシ、パッケージの損失、ストラグラーの存在のため、非効率であり、不可能である。
本稿では,R-FAST (Fully-Asynchronous Gradient Tracking Method) を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:36:40Z) - Truncated tensor Schatten p-norm based approach for spatiotemporal
traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。
本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文 参考訳(メタデータ) (2022-05-19T08:37:56Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。