論文の概要: Dataset Definition Standard (DDS)
- arxiv url: http://arxiv.org/abs/2101.03020v1
- Date: Thu, 7 Jan 2021 10:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:26:11.780513
- Title: Dataset Definition Standard (DDS)
- Title(参考訳): Dataset Definition Standard (DDS)
- Authors: Cyril Cappi, Camille Chapdelaine, Laurent Gardes, Eric Jenn, Baptiste
Lefevre, Sylvaine Picard, Thomas Soumarmon
- Abstract要約: この文書は、データセットの品質を確保するために[1]で定義された3つの文書の1つです。
マシンラーニングモデルの開発と検証に使用されるデータセットの構築と操作を推奨する。
- 参考スコア(独自算出の注目度): 0.9236074230806579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This document gives a set of recommendations to build and manipulate the
datasets used to develop and/or validate machine learning models such as deep
neural networks. This document is one of the 3 documents defined in [1] to
ensure the quality of datasets. This is a work in progress as good practices
evolve along with our understanding of machine learning. The document is
divided into three main parts. Section 2 addresses the data collection
activity. Section 3 gives recommendations about the annotation process.
Finally, Section 4 gives recommendations concerning the breakdown between
train, validation, and test datasets. In each part, we first define the desired
properties at stake, then we explain the objectives targeted to meet the
properties, finally we state the recommendations to reach these objectives.
- Abstract(参考訳): このドキュメントは、ディープニューラルネットワークなどの機械学習モデルの開発と検証に使用されるデータセットの構築と操作を推奨する一連のセットを提供する。
この文書は[1]で定義された3つの文書のうちの1つで、データセットの品質を保証する。
優れたプラクティスがマシンラーニングの理解とともに進化するにつれ、これは進行中の作業です。
文書は3つの主要な部分に分けられる。
セクション2は、データ収集アクティビティに対処する。
第3節ではアノテーションプロセスについて推奨している。
最後に、セクション4は、列車、バリデーション、テストデータセットの分解に関する推奨事項を提供する。
それぞれの部分において、まず所望のプロパティを定義し、次にプロパティを満たそうとする目的を説明し、最後にこれらの目的を達成するための推奨事項を述べます。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization [36.973388673687815]
RanLayNetは、自動的に割り当てられたラベルでリッチ化された合成ドキュメントデータセットである。
本研究では,データセットでトレーニングしたディープレイアウト識別モデルに対して,実際の文書のみをトレーニングしたモデルと比較して,性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-15T07:50:15Z) - Enhancing Document Information Analysis with Multi-Task Pre-training: A
Robust Approach for Information Extraction in Visually-Rich Documents [8.49076413640561]
モデルは事前訓練され、その後、様々な文書画像解析タスクのために微調整される。
提案されたモデルは、文書分類のためのRVL-CDIPデータセットで95.87%の精度で、すべてのタスクで印象的な結果を得た。
論文 参考訳(メタデータ) (2023-10-25T10:22:30Z) - Document-Level In-Context Few-Shot Relation Extraction via Pre-Trained Language Models [29.94694305204144]
本稿では,文書レベルのインコンテクスト・イン・ショット関係抽出のための新しいフレームワークを提案する。
ドキュメントレベルの関係抽出用データセットとして最大であるDocREDを用いて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-17T09:10:27Z) - Cluster Exploration using Informative Manifold Projections [0.0]
次元減少(DR)は、高次元データの視覚的探索の鍵となるツールの1つである。
本稿では,様々な事前知識に関連付けられた構造を抽出する情報埋め込みを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-09-26T11:35:25Z) - DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。
注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文 参考訳(メタデータ) (2023-02-11T11:32:10Z) - Focused Attention Improves Document-Grounded Generation [111.42360617630669]
文書基盤生成は、文書に提供される情報を用いてテキスト生成を改善するタスクである。
本研究はwikipedia更新生成タスクと対話応答生成という2つの異なる文書基底生成タスクに焦点を当てている。
論文 参考訳(メタデータ) (2021-04-26T16:56:29Z) - Moving on from OntoNotes: Coreference Resolution Model Transfer [47.5441257300917]
対象データセットで利用可能な注釈付き文書の数に基づいて,コリファレンス解決モデルの転送可能性を定量化する。
LitBankとPreCoの最新の結果を含む、いくつかのデータセットにまたがる新しいベンチマークを確立します。
論文 参考訳(メタデータ) (2021-04-17T05:35:07Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z) - Joint Item Recommendation and Attribute Inference: An Adaptive Graph
Convolutional Network Approach [61.2786065744784]
レコメンデーションシステムでは、ユーザとアイテムは属性に関連付けられ、ユーザはアイテムの好みを表示する。
ユーザ(item)属性をアノテートすることは労働集約的なタスクであるため、属性値が欠落している多くの属性値と不完全であることが多い。
本稿では,共同項目推薦と属性推論のための適応グラフ畳み込みネットワーク(AGCN)アプローチを提案する。
論文 参考訳(メタデータ) (2020-05-25T10:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。