論文の概要: Reusable Templates and Guides For Documenting Datasets and Models for
Natural Language Processing and Generation: A Case Study of the HuggingFace
and GEM Data and Model Cards
- arxiv url: http://arxiv.org/abs/2108.07374v1
- Date: Mon, 16 Aug 2021 23:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 13:14:20.129964
- Title: Reusable Templates and Guides For Documenting Datasets and Models for
Natural Language Processing and Generation: A Case Study of the HuggingFace
and GEM Data and Model Cards
- Title(参考訳): 自然言語処理と生成のためのデータセットとモデル文書化のための再利用可能なテンプレートとガイド:ハグフェイスとgemデータとモデルカードのケーススタディ
- Authors: Angelina McMillan-Major, Salomey Osei, Juan Diego Rodriguez, Pawan
Sasanka Ammanamanchi, Sebastian Gehrmann and Yacine Jernite
- Abstract要約: 再利用可能なドキュメンテーションテンプレートの開発を目的とした取り組みについて,2つのケーススタディを提示する。
本稿では,これらのテンプレートの開発プロセスについて述べる。
- 参考スコア(独自算出の注目度): 11.251235763359862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing documentation guidelines and easy-to-use templates for datasets
and models is a challenging task, especially given the variety of backgrounds,
skills, and incentives of the people involved in the building of natural
language processing (NLP) tools. Nevertheless, the adoption of standard
documentation practices across the field of NLP promotes more accessible and
detailed descriptions of NLP datasets and models, while supporting researchers
and developers in reflecting on their work. To help with the standardization of
documentation, we present two case studies of efforts that aim to develop
reusable documentation templates -- the HuggingFace data card, a general
purpose card for datasets in NLP, and the GEM benchmark data and model cards
with a focus on natural language generation. We describe our process for
developing these templates, including the identification of relevant
stakeholder groups, the definition of a set of guiding principles, the use of
existing templates as our foundation, and iterative revisions based on
feedback.
- Abstract(参考訳): 特に自然言語処理(nlp)ツールの構築に関わる人々の背景、スキル、インセンティブが多岐にわたることを考えると、ドキュメントガイドラインやデータセットやモデルの使い易いテンプレートの開発は難しい作業です。
それでも、NLPの分野にまたがる標準ドキュメントプラクティスの採用は、NLPデータセットとモデルのよりアクセスしやすく詳細な説明を促進すると同時に、研究者や開発者の作業の反映を支援する。
ドキュメントの標準化を支援するために,再利用可能なドキュメンテーションテンプレートの開発を目的とした2つのケーススタディを示す。HuggingFaceデータカード,NLPにおけるデータセットの汎用カード,自然言語生成を重視したGEMベンチマークデータとモデルカードだ。
関連したステークホルダのグループの特定,一連のガイド原則の定義,既存のテンプレートの基盤としての利用,フィードバックに基づく反復的なリビジョンなど,テンプレートの開発プロセスについて説明します。
関連論文リスト
- Detection and Measurement of Syntactic Templates in Generated Text [58.111650675717414]
モデルにおける一般的な反復を特徴付けるための構文的特徴の解析を行う。
モデルでは、下流のタスクにおいて、人間の参照テキストよりも高いレートでテンプレートテキストを生成する傾向にある。
論文 参考訳(メタデータ) (2024-06-28T19:34:23Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - GPT Struct Me: Probing GPT Models on Narrative Entity Extraction [2.049592435988883]
我々は,2つの最先端言語モデル(GPT-3とGPT-3.5)の物語の抽出能力を評価する。
本研究はポルトガルの119のニュース記事を集めたText2Story Lusaデータセットを用いて行った。
論文 参考訳(メタデータ) (2023-11-24T16:19:04Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Probing Representations for Document-level Event Extraction [30.523959637364484]
この研究は、文書レベルの情報抽出で学んだ表現に探索パラダイムを適用した最初のものである。
文書レベルのイベント抽出に関連するサーフェス,セマンティクス,イベント理解機能を分析するために,8つの埋め込みプローブを設計した。
これらのモデルからトレーニングされたエンコーダは、わずかに引数の検出とラベリングを改善することができるが、イベントレベルのタスクをわずかに強化するだけである。
論文 参考訳(メタデータ) (2023-10-23T19:33:04Z) - Total Error Sheets for Datasets (TES-D) -- A Critical Guide to
Documenting Online Platform Datasets [0.0]
本稿では,研究目的でオンラインプラットフォームから収集したデータセットを文書化するためのテンプレートを提案する。
このテンプレートは、オンラインプラットフォームデータを利用する研究分野において、データ品質を批判的に反映し、透明性を高めるのに役立つだろう。
論文 参考訳(メタデータ) (2023-06-25T12:00:09Z) - Key Information Extraction From Documents: Evaluation And Generator [3.878105750489656]
本研究プロジェクトは,文書からの情報抽出のための最先端モデルと比較する。
その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。
境界ボックス回帰デコーダの使用により、長方形に従わないフィールドに対してのみモデル性能が向上する。
論文 参考訳(メタデータ) (2021-06-09T16:12:21Z) - GRIT: Generative Role-filler Transformers for Document-level Event
Entity Extraction [134.5580003327839]
本稿では、文書レベルでコンテキストをモデル化するための生成トランスフォーマーベースのエンコーダデコーダフレームワーク(GRIT)を紹介する。
我々は,MUC-4データセットに対する我々のアプローチを評価し,我々のモデルが先行作業よりもかなり優れていることを示す。
論文 参考訳(メタデータ) (2020-08-21T01:07:36Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。