Fugu-MT 論文翻訳(概要): Towards Semantic Versioning of Open Pre-trained Language Model Releases on Hugging Face

論文の概要: Towards Semantic Versioning of Open Pre-trained Language Model Releases on Hugging Face

arxiv url: http://arxiv.org/abs/2409.10472v2
Date: Tue, 17 Sep 2024 21:58:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-19 12:19:06.765409
Title: Towards Semantic Versioning of Open Pre-trained Language Model Releases on Hugging Face
Title（参考訳）: Hugging Face上でのオープントレーニング済み言語モデルのセマンティックバージョニングに向けて
Authors: Adekunle Ajibode, Abdul Ali Bangash, Filipe Roseiro Cogo, Bram Adams, Ahmed E. Hassan,
Abstract要約: モデルレジストリプラットフォームにおけるPTLMの現在のリリースプラクティスは、さまざまな不整合に悩まされています。本研究は,52,227個のPTLMを,最もよく知られたモデルレジストリHF上でリリースするための混合手法を用いて解析する。
参考スコア（独自算出の注目度）: 11.025172748029753
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The proliferation of open Pre-trained Language Models (PTLMs) on model registry platforms like Hugging Face (HF) presents both opportunities and challenges for companies building products around them. Similar to traditional software dependencies, PTLMs continue to evolve after a release. However, the current state of release practices of PTLMs on model registry platforms are plagued by a variety of inconsistencies, such as ambiguous naming conventions and inaccessible model training documentation. Given the knowledge gap on current PTLM release practices, our empirical study uses a mixed-methods approach to analyze the releases of 52,227 PTLMs on the most well-known model registry, HF. Our results reveal 148 different naming practices for PTLM releases, with 40.87% of changes to model weight files not represented in the adopted name-based versioning practice or their documentation. In addition, we identified that the 52,227 PTLMs are derived from only 299 different base models (the modified original models used to create 52,227 PTLMs), with Fine-tuning and Quantization being the most prevalent modification methods applied to these base models. Significant gaps in release transparency, in terms of training dataset specifications and model card availability, still exist, highlighting the need for standardized documentation. While we identified a model naming practice explicitly differentiating between major and minor PTLM releases, we did not find any significant difference in the types of changes that went into either type of releases, suggesting that major/minor version numbers for PTLMs often are chosen arbitrarily. Our findings provide valuable insights to improve PTLM release practices, nudging the field towards more formal semantic versioning practices.
Abstract（参考訳）: Hugging Face (HF)のようなモデルレジストリプラットフォーム上でのオープンな事前学習言語モデル(PTLM)の普及は、その周辺で製品を開発する企業にとっての機会と課題の両方を提示している。従来のソフトウェア依存関係と同様に、PTLMはリリース後も進化を続けている。しかし、モデルレジストリプラットフォームにおけるPTLMのリリースプラクティスの現状は、曖昧な命名規則やアクセシブルなモデルトレーニングドキュメントなど、さまざまな不整合に悩まされている。現在のPTLMリリースの知識ギャップを考えると、実験的な研究は、52,227個のPTLMのリリースを、最もよく知られたモデルレジストリであるHFで分析するために、混合メソッドのアプローチを用いています。その結果,PTLMリリースの命名法は148種類あり,モデルウェイトファイルの変更の40.87%が採用されている名前ベースのバージョニングやドキュメントに含まれていないことが明らかとなった。さらに,52,227のPTLMは299の異なるベースモデル(52,227のPTLMを作成するために使用される修正元のモデル)から派生したものであることが確認された。トレーニングデータセットの仕様とモデルカードの可用性に関して、リリースの透明性における重要なギャップは依然として存在し、標準化されたドキュメントの必要性を強調している。我々は,PTLMのメジャーバージョンとマイナーバージョンを明示的に区別するモデル命名法を特定したが,いずれのリリースでも変更の種類に大きな違いは見つからず,PTLMのメジャー/マイナーバージョン番号が任意に選択されることが示唆された。我々の研究はPTLMリリースの実践を改善する上で貴重な洞察を与え、より形式的なセマンティックバージョニングの実践に力を入れている。

関連論文リスト

Learning an Image Editing Model without Image Editing Pairs [83.03646586929638]
最近の画像編集モデルは、自然言語編集の指示に従いながら印象的な成果を上げている。それらは、インプットとターゲットのペアの大きなデータセットによる教師付き微調整に依存している。現在の回避策は、既存のモデルのゼロショット機能を利用する合成トレーニングペアを使用する。ペア化されたデータを完全に不要にする新たなトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2025-10-16T17:59:57Z)
Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
RoFL: Robust Fingerprinting of Language Models [37.78291630618266]
そこで本研究では,モデル開発者が指紋による識別を行うための新しい手法を提案する。本手法では,限られたクエリ数を用いてブラックボックス設定でモデル識別を行う。提案手法は,モデルや推論設定の共通的な変更に対して,高い堅牢性を提供する。
論文参考訳（メタデータ） (2025-05-19T04:00:23Z)
Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。 170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文参考訳（メタデータ） (2024-10-23T14:04:22Z)
Cross-model Control: Improving Multiple Large Language Models in One-time Training [34.98931804630706]
クロスモデル制御(CMC)は、1回トレーニングで複数の大規模言語モデルを改善する手法である。この知見に基づいて、最小数のパラメータを持つ小さな言語モデルを組み込む。本稿では,PM-Mined という新しいトークンマッピング手法を提案する。
論文参考訳（メタデータ） (2024-10-23T06:52:09Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。 OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文参考訳（メタデータ） (2024-06-12T17:37:09Z)
Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。この問題に対処するための単純な分散結合フレームワークを導入する。我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文参考訳（メタデータ） (2024-05-22T08:18:19Z)
HuRef: HUman-REadable Fingerprint for Large Language Models [44.9820558213721]
HuRefは、大きな言語モデルのための人間可読指紋である。トレーニングやモデルパラメータを公開することなく、ベースモデルを独自に識別する。
論文参考訳（メタデータ） (2023-12-08T05:01:47Z)
Adapting Large Language Models for Content Moderation: Pitfalls in Data Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文参考訳（メタデータ） (2023-10-05T09:09:44Z)
Incremental Model Transformations with Triple Graph Grammars for Multi-version Models [1.6371451481715191]
本稿では,ソースモデルの複数バージョンを対象モデルの対応するバージョンに変換する手法を提案する。我々のアプローチは、トリプルグラフ文法のよく知られた形式主義と、マルチバージョンモデルと呼ばれるモデルバージョン履歴の符号化に基づいている。
論文参考訳（メタデータ） (2023-07-05T08:26:18Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
An Empirical Study of Challenges in Converting Deep Learning Models [15.521925194920893]
我々は、訓練されたディープラーニングモデルを変換するために、ONNXとCoreMLを評価するための最初の実証的研究を行う。この結果から,変換モデルの予測精度は原文と同程度であることが判明した。変換モデルは一般的に、原文の同じレベルで堅牢であると評価される。
論文参考訳（メタデータ） (2022-06-28T23:18:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。