論文の概要: Dataset Definition Standard (DDS)
- arxiv url: http://arxiv.org/abs/2101.03020v1
- Date: Thu, 7 Jan 2021 10:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:26:11.780513
- Title: Dataset Definition Standard (DDS)
- Title(参考訳): Dataset Definition Standard (DDS)
- Authors: Cyril Cappi, Camille Chapdelaine, Laurent Gardes, Eric Jenn, Baptiste
Lefevre, Sylvaine Picard, Thomas Soumarmon
- Abstract要約: この文書は、データセットの品質を確保するために[1]で定義された3つの文書の1つです。
マシンラーニングモデルの開発と検証に使用されるデータセットの構築と操作を推奨する。
- 参考スコア(独自算出の注目度): 0.9236074230806579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This document gives a set of recommendations to build and manipulate the
datasets used to develop and/or validate machine learning models such as deep
neural networks. This document is one of the 3 documents defined in [1] to
ensure the quality of datasets. This is a work in progress as good practices
evolve along with our understanding of machine learning. The document is
divided into three main parts. Section 2 addresses the data collection
activity. Section 3 gives recommendations about the annotation process.
Finally, Section 4 gives recommendations concerning the breakdown between
train, validation, and test datasets. In each part, we first define the desired
properties at stake, then we explain the objectives targeted to meet the
properties, finally we state the recommendations to reach these objectives.
- Abstract(参考訳): このドキュメントは、ディープニューラルネットワークなどの機械学習モデルの開発と検証に使用されるデータセットの構築と操作を推奨する一連のセットを提供する。
この文書は[1]で定義された3つの文書のうちの1つで、データセットの品質を保証する。
優れたプラクティスがマシンラーニングの理解とともに進化するにつれ、これは進行中の作業です。
文書は3つの主要な部分に分けられる。
セクション2は、データ収集アクティビティに対処する。
第3節ではアノテーションプロセスについて推奨している。
最後に、セクション4は、列車、バリデーション、テストデータセットの分解に関する推奨事項を提供する。
それぞれの部分において、まず所望のプロパティを定義し、次にプロパティを満たそうとする目的を説明し、最後にこれらの目的を達成するための推奨事項を述べます。
関連論文リスト
- Navigating Dataset Documentations in AI: A Large-Scale Analysis of
Dataset Cards on Hugging Face [46.60562029098208]
私たちはHugging Faceで7,433のデータセットドキュメントを分析します。
本研究は,大規模データサイエンス分析によるデータセットの文書化に関するユニークな視点を提供する。
論文 参考訳(メタデータ) (2024-01-24T21:47:13Z) - Enhancing Document Information Analysis with Multi-Task Pre-training: A
Robust Approach for Information Extraction in Visually-Rich Documents [8.49076413640561]
モデルは事前訓練され、その後、様々な文書画像解析タスクのために微調整される。
提案されたモデルは、文書分類のためのRVL-CDIPデータセットで95.87%の精度で、すべてのタスクで印象的な結果を得た。
論文 参考訳(メタデータ) (2023-10-25T10:22:30Z) - Cluster Exploration using Informative Manifold Projections [0.0]
次元減少(DR)は、高次元データの視覚的探索の鍵となるツールの1つである。
本稿では,様々な事前知識に関連付けられた構造を抽出する情報埋め込みを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-09-26T11:35:25Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。
注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文 参考訳(メタデータ) (2023-02-11T11:32:10Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - Focused Attention Improves Document-Grounded Generation [111.42360617630669]
文書基盤生成は、文書に提供される情報を用いてテキスト生成を改善するタスクである。
本研究はwikipedia更新生成タスクと対話応答生成という2つの異なる文書基底生成タスクに焦点を当てている。
論文 参考訳(メタデータ) (2021-04-26T16:56:29Z) - Moving on from OntoNotes: Coreference Resolution Model Transfer [47.5441257300917]
対象データセットで利用可能な注釈付き文書の数に基づいて,コリファレンス解決モデルの転送可能性を定量化する。
LitBankとPreCoの最新の結果を含む、いくつかのデータセットにまたがる新しいベンチマークを確立します。
論文 参考訳(メタデータ) (2021-04-17T05:35:07Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z) - Joint Item Recommendation and Attribute Inference: An Adaptive Graph
Convolutional Network Approach [61.2786065744784]
レコメンデーションシステムでは、ユーザとアイテムは属性に関連付けられ、ユーザはアイテムの好みを表示する。
ユーザ(item)属性をアノテートすることは労働集約的なタスクであるため、属性値が欠落している多くの属性値と不完全であることが多い。
本稿では,共同項目推薦と属性推論のための適応グラフ畳み込みネットワーク(AGCN)アプローチを提案する。
論文 参考訳(メタデータ) (2020-05-25T10:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。