論文の概要: The State of Documentation Practices of Third-party Machine Learning
Models and Datasets
- arxiv url: http://arxiv.org/abs/2312.15058v1
- Date: Fri, 22 Dec 2023 20:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:58:25.746724
- Title: The State of Documentation Practices of Third-party Machine Learning
Models and Datasets
- Title(参考訳): サードパーティの機械学習モデルとデータセットのドキュメンテーションプラクティスの現状
- Authors: Ernesto Lang Oreamuno, Rohan Faiyaz Khan, Abdul Ali Bangash, Catherine
Stinson, Bram Adams
- Abstract要約: 我々は,現在使用されている最大規模のモデルストアのひとつにおいて,モデルカードとデータセットカードの文書化の実践状況を評価する。
調査の結果,21,902モデル (39.62%) と1,925データセット (28.48%) のみが文書化されていることがわかった。
- 参考スコア(独自算出の注目度): 8.494940891363813
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Model stores offer third-party ML models and datasets for easy project
integration, minimizing coding efforts. One might hope to find detailed
specifications of these models and datasets in the documentation, leveraging
documentation standards such as model and dataset cards. In this study, we use
statistical analysis and hybrid card sorting to assess the state of the
practice of documenting model cards and dataset cards in one of the largest
model stores in use today--Hugging Face (HF). Our findings show that only
21,902 models (39.62\%) and 1,925 datasets (28.48\%) have documentation.
Furthermore, we observe inconsistency in ethics and transparency-related
documentation for ML models and datasets.
- Abstract(参考訳): モデルストアは、プロジェクト統合が容易なサードパーティのmlモデルとデータセットを提供し、コーディング作業を最小化する。
モデルやデータセットカードなどのドキュメント標準を活用して、これらのモデルとデータセットの詳細な仕様をドキュメントに見つけたいと思っています。
本研究では,現在使用されている最大のモデルストアであるHugging Face (HF)において,モデルカードとデータセットカードの文書化の実践状況を評価するために,統計解析とハイブリッドカードソートを用いる。
その結果,21,902モデル (39.62\%) と1,925データセット (28.48\%) のみがドキュメントを持っていることがわかった。
さらに,mlモデルやデータセットに対する倫理や透明性に関する文書の一貫性の欠如を観察する。
関連論文リスト
- What's documented in AI? Systematic Analysis of 32K AI Model Cards [40.170354637778345]
我々は、Hugging Face上で32,111のAIモデルドキュメンテーションを包括的に分析する。
かなりダウンロードされたAIモデルのほとんどはモデルカードを提供するが、カードには不明確な情報がある。
その結果, 環境影響, 限界, 評価に対処する区間は, 最下位の充足率を示す一方, トレーニング区間は最下位の充足率を示すことがわかった。
論文 参考訳(メタデータ) (2024-02-07T18:04:32Z) - GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity
Extraction Focused on Machine Learning Models and Datasets [3.9169112083667073]
学術的な文章では、機械学習モデルとデータセットへの参照が基本的なコンポーネントである。
既存の真理データセットは、MLモデルやモデルアーキテクチャのようなきめ細かい型を別々のエンティティタイプとして扱わない。
MLモデルとデータセットを中心とした10のエンティティタイプを対象とした,100のコーパスを手動でアノテートしたフルテキストの科学出版物と,最初のベースラインモデルをリリースする。
論文 参考訳(メタデータ) (2023-11-16T12:43:02Z) - Unlocking Model Insights: A Dataset for Automated Model Card Generation [4.167070553534516]
25のMLモデルに対して500対の質問応答ペアのデータセットを導入する。
元の論文から回答を抽出するためにアノテーションを使用します。
また,ChatGPT-3.5,LLaMa,Galacticaを用いた実験では,これらのLMによる研究論文の理解に大きなギャップが認められた。
論文 参考訳(メタデータ) (2023-09-22T04:46:11Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Metadata Representations for Queryable ML Model Zoos [73.24799582702326]
機械学習(ML)の実践者や組織は、事前訓練されたモデルのモデル動物園を構築しており、モデルの性質を記述するメタデータを含んでいる。
メタタダは現在標準化されておらず、表現力は限られている。
本稿では,MLモデルのメタデータ表現と管理の標準化を提唱し,そのメタデータの管理とクエリを支援するツールキットを提案する。
論文 参考訳(メタデータ) (2022-07-19T15:04:14Z) - Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich
Document Understanding [72.95838931445498]
マルチモーダル文書事前学習モデルは、様々な視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。
ドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げられている。
本稿では,VrDUにおける視覚言語共同表現学習の問題点について,主に監視信号の観点から検討する。
論文 参考訳(メタデータ) (2022-06-27T09:58:34Z) - Aspirations and Practice of Model Documentation: Moving the Needle with
Nudging and Traceability [8.875661788022637]
機械学習モデルの文書化実践を支援するための一連の設計ガイドラインを提案する。
DocMLという名前のプロトタイプツールは、計算ノートブックのモデル開発をサポートするためのガイドラインに従っている。
論文 参考訳(メタデータ) (2022-04-13T14:39:18Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。