論文の概要: Aspirations and Practice of Model Documentation: Moving the Needle with
Nudging and Traceability
- arxiv url: http://arxiv.org/abs/2204.06425v1
- Date: Wed, 13 Apr 2022 14:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 14:02:43.003809
- Title: Aspirations and Practice of Model Documentation: Moving the Needle with
Nudging and Traceability
- Title(参考訳): モデルドキュメンテーションの願望と実践 : 縫合とトレーサビリティによる針の移動
- Authors: Avinash Bhat, Austin Coursey, Grace Hu, Sixian Li, Nadia Nahar, Shurui
Zhou, Christian K\"astner, Jin L.C. Guo
- Abstract要約: 機械学習モデルの文書化実践を支援するための一連の設計ガイドラインを提案する。
DocMLという名前のプロトタイプツールは、計算ノートブックのモデル開発をサポートするためのガイドラインに従っている。
- 参考スコア(独自算出の注目度): 8.875661788022637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models have been widely developed, released, and adopted in
numerous applications. Meanwhile, the documentation practice for machine
learning models often falls short of established practices for traditional
software components, which impedes model accountability, inadvertently abets
inappropriate or misuse of models, and may trigger negative social impact.
Recently, model cards, a template for documenting machine learning models, have
attracted notable attention, but their impact on the practice of model
documentation is unclear. In this work, we examine publicly available model
cards and other similar documentation. Our analysis reveals a substantial gap
between the suggestions made in the original model card work and the content in
actual documentation. Motivated by this observation and literature on fields
such as software documentation, interaction design, and traceability, we
further propose a set of design guidelines that aim to support the
documentation practice for machine learning models including (1) the
collocation of documentation environment with the coding environment, (2)
nudging the consideration of model card sections during model development, and
(3) documentation derived from and traced to the source. We designed a
prototype tool named DocML following those guidelines to support model
development in computational notebooks. A lab study reveals the benefit of our
tool to shift the behavior of data scientists towards documentation quality and
accountability.
- Abstract(参考訳): 機械学習モデルは広く開発され、リリースされ、多くのアプリケーションで採用されている。
一方、機械学習モデルのドキュメンテーションプラクティスは、モデル説明責任を妨げる従来のソフトウェアコンポーネントの確立したプラクティスに足りず、不適切なモデルや誤用を必然的に回避し、ネガティブな社会的影響を引き起こす可能性がある。
近年、機械学習モデルのドキュメンテーション用テンプレートであるモデルカードが注目されているが、モデルドキュメンテーションの実践への影響は明らかになっていない。
本研究では,公開されているモデルカードと類似の文書について検討する。
分析の結果、オリジナルのモデルカード作業における提案と実際のドキュメントの内容との間にかなりのギャップがあることが分かりました。
この観察と、ソフトウェアドキュメンテーション、インタラクション設計、トレーサビリティといった分野の文献に動機づけられ、さらに、(1)ドキュメンテーション環境とコーディング環境の融合、(2)モデル開発におけるモデルカードセクションの考察、(3)ソースから派生・トレースされたドキュメンテーションを含む、機械学習モデルのドキュメンテーションの実践を支援するための一連の設計ガイドラインを提案する。
我々はこれらのガイドラインに従ってDocMLというプロトタイプツールを設計し、計算ノートブックのモデル開発を支援した。
実験室では、データサイエンティストの振る舞いをドキュメントの品質と説明責任にシフトするツールの利点を明らかにしています。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Right or Wrong -- Understanding How Novice Users Write Software Models [0.6445605125467574]
本稿では, 初心者がアロイを学習しようとする場合, 97,000モデル以上のモデルについて実証的研究を行った。
本研究では,ユーザが将来使用するための総合的なベンチマークを作成するために,正しいモデルと間違ったモデルの両方を記述する方法を検討する。
論文 参考訳(メタデータ) (2024-02-09T18:56:57Z) - What's documented in AI? Systematic Analysis of 32K AI Model Cards [40.170354637778345]
我々は、Hugging Face上で32,111のAIモデルドキュメンテーションを包括的に分析する。
かなりダウンロードされたAIモデルのほとんどはモデルカードを提供するが、カードには不明確な情報がある。
その結果, 環境影響, 限界, 評価に対処する区間は, 最下位の充足率を示す一方, トレーニング区間は最下位の充足率を示すことがわかった。
論文 参考訳(メタデータ) (2024-02-07T18:04:32Z) - The State of Documentation Practices of Third-party Machine Learning
Models and Datasets [8.494940891363813]
我々は,現在使用されている最大規模のモデルストアのひとつにおいて,モデルカードとデータセットカードの文書化の実践状況を評価する。
調査の結果,21,902モデル (39.62%) と1,925データセット (28.48%) のみが文書化されていることがわかった。
論文 参考訳(メタデータ) (2023-12-22T20:45:52Z) - Leveraging Contextual Information for Effective Entity Salience Detection [21.30389576465761]
クロスエンコーダアーキテクチャを用いた中規模言語モデルの微調整により,機能工学的アプローチよりも優れた性能が得られることを示す。
また、命令調整言語モデルのゼロショットプロンプトは、タスクの特異性と複雑さを示す劣った結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-09-14T19:04:40Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Learnware: Small Models Do Big [69.88234743773113]
自然言語処理やコンピュータビジョンの応用で目覚ましい成果を上げてきた、一般的なビッグモデルパラダイムは、これらの問題にまだ対応していないが、炭素排出量の深刻な源となっている。
この記事では、マシンラーニングモデルをスクラッチから構築する必要がないようにするための学習ソフトウェアパラダイムの概要を紹介します。
論文 参考訳(メタデータ) (2022-10-07T15:55:52Z) - Interactive Model Cards: A Human-Centered Approach to Model
Documentation [20.880991026743498]
自然言語処理のためのディープラーニングモデルは、NLPや機械学習の正式なトレーニングなしに、アナリストによって採用され、デプロイされている。
モデルの詳細と適切な使用を伝達するためのドキュメンテーションは、主にMLやNLPの専門知識を持つ個人向けに調整されている。
我々は、インタラクティブなモデルカードの設計調査を行い、モデルドキュメンテーションを探索し、モデル自体と対話する余地を、従来の静的なモデルカードに拡張した。
論文 参考訳(メタデータ) (2022-05-05T19:19:28Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。