論文の概要: On the synchronization between Hugging Face pre-trained language models and their upstream GitHub repository
- arxiv url: http://arxiv.org/abs/2508.10157v1
- Date: Wed, 13 Aug 2025 19:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.101946
- Title: On the synchronization between Hugging Face pre-trained language models and their upstream GitHub repository
- Title(参考訳): Hugging Face事前訓練言語モデルと上流GitHubリポジトリの同期について
- Authors: Ajibode Adekunle, Abdul Ali Bangash, Bram Adams, Ahmed E. Hassan,
- Abstract要約: 事前訓練された言語モデル(PTLM)は、高度な自然言語処理(NLP)を持つ。
PTLMはアップストリームリポジトリ(GitHub、GHなど)のコードと環境スクリプトを使用してトレーニングされ、Hugging Face (HF)のような下流プラットフォーム経由で変種として配布される。
GHとHFのコーディネート開発は、不整合リリーススケジュール、一貫性のないバージョニング、PTLMバリアントの限定的な再利用といった課題を生んでいる。
- 参考スコア(独自算出の注目度): 11.828311976126303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained language models (PTLMs) have advanced natural language processing (NLP), enabling progress in tasks like text generation and translation. Like software package management, PTLMs are trained using code and environment scripts in upstream repositories (e.g., GitHub, GH) and distributed as variants via downstream platforms like Hugging Face (HF). Coordinating development between GH and HF poses challenges such as misaligned release timelines, inconsistent versioning, and limited reuse of PTLM variants. We conducted a mixed-method study of 325 PTLM families (904 HF variants) to examine how commit activities are coordinated. Our analysis reveals that GH contributors typically make changes related to specifying the version of the model, improving code quality, performance optimization, and dependency management within the training scripts, while HF contributors make changes related to improving model descriptions, data set handling, and setup required for model inference. Furthermore, to understand the synchronization aspects of commit activities between GH and HF, we examined three dimensions of these activities -- lag (delay), type of synchronization, and intensity -- which together yielded eight distinct synchronization patterns. The prevalence of partially synchronized patterns, such as Disperse synchronization and Sparse synchronization, reveals structural disconnects in current cross-platform release practices. These patterns often result in isolated changes -- where improvements or fixes made on one platform are never replicated on the other -- and in some cases, indicate an abandonment of one repository in favor of the other. Such fragmentation risks exposing end users to incomplete, outdated, or behaviorally inconsistent models. Hence, recognizing these synchronization patterns is critical for improving oversight and traceability in PTLM release workflows.
- Abstract(参考訳): 事前訓練された言語モデル(PTLM)は高度な自然言語処理(NLP)を持ち、テキスト生成や翻訳といったタスクの進歩を可能にする。
ソフトウェアパッケージ管理と同様に、PTLMは上流リポジトリ(GitHub、GHなど)のコードと環境スクリプトを使用してトレーニングされ、Hugging Face (HF)のような下流プラットフォームを介して変種として配布される。
GHとHFのコーディネート開発は、不整合リリーススケジュール、一貫性のないバージョニング、PTLMバリアントの限定的な再利用といった課題を生んでいる。
325のPTLMファミリー(904のHF変異体)を混合分析し,コミット活動のコーディネートについて検討した。
我々の分析によると、GHコントリビュータは一般的に、モデルのバージョン指定、コード品質の改善、パフォーマンス最適化、およびトレーニングスクリプト内の依存性管理に関する変更を行う一方、HFコントリビュータはモデル記述の改善、データセットハンドリング、モデル推論に必要なセットアップに関する変更を行う。
さらに,GHとHFのコミットアクティビティの同期的側面を理解するために,これらのアクティビティの3次元 – 遅延(遅延),同期の種類,強度 – を検討した。
Disperse同期やスパース同期といった部分同期パターンの出現は、現在のクロスプラットフォームリリースプラクティスにおける構造的切断を明らかにしている。
これらのパターンは、あるプラットフォームで行われた改善や修正が他のプラットフォームに複製されないような、分離された変更をもたらすことが多い。
このような断片化は、エンドユーザーを不完全、時代遅れ、あるいは行動に一貫性のないモデルに晒すリスクがある。
したがって、これらの同期パターンを認識することは、PTLMリリースワークフローの監視とトレーサビリティを向上させるために重要である。
関連論文リスト
- SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - SyncMind: Measuring Agent Out-of-Sync Recovery in Collaborative Software Engineering [74.04271300772155]
SyncMindは、ソフトウェア工学において、大きな言語モデル(LLM)エージェントが直面している非同期の問題を体系的に定義するフレームワークである。
SyncMindをベースとしたSyncBenchは,実世界のCSEで24,332のエージェントアウトオブシンクシナリオを特徴とするベンチマークです。
論文 参考訳(メタデータ) (2025-02-10T19:38:36Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Delving into Commit-Issue Correlation to Enhance Commit Message
Generation Models [13.605167159285374]
コミットメッセージ生成は、自動化されたソフトウェアエンジニアリングにおいて難しいタスクである。
ツールとは,コミットとイシューの相関関係をモデルのトレーニングフェーズに導入する,新たなパラダイムだ。
その結果,元モデルと比較して,ツール強化モデルの性能は大幅に向上した。
論文 参考訳(メタデータ) (2023-07-31T20:35:00Z) - Efficient and Light-Weight Federated Learning via Asynchronous
Distributed Dropout [22.584080337157168]
非同期学習プロトコルは最近、特にフェデレートラーニング(FL)設定において注目を集めている。
分散環境でデバイスの不均一性を処理するためにドロップアウト正規化を利用する新しい非同期FLフレームワークである textttAsyncDrop を提案する。
全体として、textttAsyncDropは、最先端の非同期メソッドと比較してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-10-28T13:00:29Z) - Learning Iterative Robust Transformation Synchronization [71.73273007900717]
グラフニューラルネットワーク(GNN)を用いて変換同期を学習することを提案する。
本研究では、ロバストな損失関数のハンドクラフトを回避するとともに、グラフニューラルネットワーク(GNN)を用いて変換同期を学習することを提案する。
論文 参考訳(メタデータ) (2021-11-01T07:03:14Z) - Elastic Consistency: A General Consistency Model for Distributed
Stochastic Gradient Descent [28.006781039853575]
近年の機械学習の進歩を支える重要な要素は、大規模な分散メモリ環境で機械学習モデルをトレーニングする能力である。
本稿では,大規模機械学習モデルの学習に使用される一般収束手法を提案する。
我々のフレームワークは弾性弾性境界と呼ばれ、様々な分散SGD法に対する収束境界を導出することができる。
論文 参考訳(メタデータ) (2020-01-16T16:10:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。