論文の概要: Total Error Sheets for Datasets (TES-D) -- A Critical Guide to
Documenting Online Platform Datasets
- arxiv url: http://arxiv.org/abs/2306.14219v1
- Date: Sun, 25 Jun 2023 12:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 16:13:48.733204
- Title: Total Error Sheets for Datasets (TES-D) -- A Critical Guide to
Documenting Online Platform Datasets
- Title(参考訳): total error sheets for datasets (tes-d) -- オンラインプラットフォームデータセットのドキュメント化に関する重要なガイド
- Authors: Leon Fr\"ohling (1,2), Indira Sen (1,2), Felix Soldner (1), Leonie
Steinbrinker (3), Maria Zens (1), Katrin Weller (1,4) ((1) GESIS - Leibniz
Institute for the Social Sciences, Cologne, Germany, (2) RWTH Aachen
University, Aachen, Germany, (3) Leipzig University, Leipzig, Germany, (4)
CAIS - Center for Advanced Internet Studies, Bochum, Germany)
- Abstract要約: 本稿では,研究目的でオンラインプラットフォームから収集したデータセットを文書化するためのテンプレートを提案する。
このテンプレートは、オンラインプラットフォームデータを利用する研究分野において、データ品質を批判的に反映し、透明性を高めるのに役立つだろう。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a template for documenting datasets that have been
collected from online platforms for research purposes. The template should help
to critically reflect on data quality and increase transparency in research
fields that make use of online platform data. The paper describes our
motivation, outlines the procedure for developing a specific documentation
template that we refer to as TES-D (Total Error Sheets for Datasets) and has
the current version of the template, guiding questions and a manual attached as
supplementary material. The TES-D approach builds upon prior work in designing
error frameworks for data from online platforms, namely the Total Error
Framework for digital traces of human behavior on online platforms (TED-On,
https://doi.org/10.1093/poq/nfab018).
- Abstract(参考訳): 本稿では,研究目的でオンラインプラットフォームから収集したデータセットを文書化するテンプレートを提案する。
このテンプレートは、データ品質を批判的に反映し、オンラインプラットフォームデータを利用する研究分野における透明性を高めるのに役立つだろう。
本稿では,その動機を述べるとともに,tes-d (total error sheet for datasets) と呼ぶ資料テンプレートの開発手順を概説する。
TES-Dアプローチは、オンラインプラットフォームからのデータのエラーフレームワーク、すなわちオンラインプラットフォーム上の人間の振る舞いのデジタルトレースのためのTotal Error Framework(TED-On, https://doi.org/10.1093/poq/nfab018)の設計において、以前の作業の上に構築されている。
関連論文リスト
- Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Detection and Measurement of Syntactic Templates in Generated Text [58.111650675717414]
モデルにおける一般的な反復を特徴付けるための構文的特徴の解析を行う。
モデルでは、下流のタスクにおいて、人間の参照テキストよりも高いレートでテンプレートテキストを生成する傾向にある。
論文 参考訳(メタデータ) (2024-06-28T19:34:23Z) - A Standardized Machine-readable Dataset Documentation Format for Responsible AI [8.59437843168878]
Croissant-RAIは、AIデータセットの発見性、相互運用性、信頼性を高めるために設計された、機械可読なメタデータフォーマットである。
主要なデータ検索エンジン、リポジトリ、機械学習フレームワークに統合されている。
論文 参考訳(メタデータ) (2024-06-04T16:40:14Z) - InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration
in Improving the Performance of Information Extraction [48.45550809455558]
文書からテンプレートをベースとした学習情報抽出の性能向上を図るために,対話IE(InteractiveIE)と呼ばれるプロキシをオンザフライで行う方法を提案する。
バイオメディカルおよび法的文書の実験では、トレーニングデータを取得するのが高価であり、AIのみのベースラインよりもInteractiveIEを使用したパフォーマンス改善の奨励的な傾向が明らかにされている。
論文 参考訳(メタデータ) (2023-05-24T02:53:22Z) - evaluating bert and parsbert for analyzing persian advertisement data [0.0]
この論文は、イランで製品やサービスを売買するオンラインマーケットプレイスであるDivarの例を用いている。
それは、DivarのWebサイトに掲載される自動車販売広告の割合を予測するためのコンペティションを提示している。
このデータセットはペルシア語のテキストデータの豊富なソースを提供するため、著者らは、ペルシア語のテキストを処理するように設計されたPythonライブラリであるHazmライブラリと、2つの最先端言語モデルであるmBERTとParsBERTを使用して分析する。
論文 参考訳(メタデータ) (2023-05-03T20:50:05Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - Reusable Templates and Guides For Documenting Datasets and Models for
Natural Language Processing and Generation: A Case Study of the HuggingFace
and GEM Data and Model Cards [11.251235763359862]
再利用可能なドキュメンテーションテンプレートの開発を目的とした取り組みについて,2つのケーススタディを提示する。
本稿では,これらのテンプレートの開発プロセスについて述べる。
論文 参考訳(メタデータ) (2021-08-16T23:15:09Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z) - Variational Template Machine for Data-to-Text Generation [37.03488881357614]
テンプレートのオープンセットは、フレーズ構築を豊かにし、様々な世代を実現するために不可欠である、と我々は主張する。
本稿では,ペアデータと非ペアデータから再利用可能な「テンプレート」を自動的に学習する問題について検討する。
データテーブルからテキスト記述を生成する新しい手法である変分テンプレートマシン(VTM)を提案する。
論文 参考訳(メタデータ) (2020-02-04T04:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。