論文の概要: MT-Adapted Datasheets for Datasets: Template and Repository
- arxiv url: http://arxiv.org/abs/2005.13156v1
- Date: Wed, 27 May 2020 04:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 08:58:24.754503
- Title: MT-Adapted Datasheets for Datasets: Template and Repository
- Title(参考訳): mt対応データセット用データシート:テンプレートとリポジトリ
- Authors: Marta R. Costa-juss\`a, Roger Creus, Oriol Domingo, Albert
Dom\'inguez, Miquel Escobar, Cayetana L\'opez, Marina Garcia and Margarita
Geleta
- Abstract要約: 我々は、EuroParlやNews-Commentaryの一般的な機械翻訳データセットを文書化するために、Gebruらによって提案された標準化されたモデルを採用しています。
このドキュメンテーションプロセスの中では、原本をマシン翻訳領域内のデータコンシューマーの特定のケースに適合させました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report we are taking the standardized model proposed by Gebru et al.
(2018) for documenting the popular machine translation datasets of the EuroParl
(Koehn, 2005) and News-Commentary (Barrault et al., 2019). Within this
documentation process, we have adapted the original datasheet to the particular
case of data consumers within the Machine Translation area. We are also
proposing a repository for collecting the adapted datasheets in this research
area
- Abstract(参考訳): 本報告では、europarl(koehn, 2005)とnews-commentary(barrault et al., 2019)の一般的な機械翻訳データセットを文書化するためにgebru et al.(2018)によって提案された標準化モデルを採用する。
この文書化プロセスでは、機械翻訳領域内のデータコンシューマの特定のケースにオリジナルのデータシートを適用しました。
また,本研究領域における適応データシート収集のためのリポジトリも提案している。
関連論文リスト
- The State of Documentation Practices of Third-party Machine Learning
Models and Datasets [8.494940891363813]
我々は,現在使用されている最大規模のモデルストアのひとつにおいて,モデルカードとデータセットカードの文書化の実践状況を評価する。
調査の結果,21,902モデル (39.62%) と1,925データセット (28.48%) のみが文書化されていることがわかった。
論文 参考訳(メタデータ) (2023-12-22T20:45:52Z) - MADLAD-400: A Multilingual And Document-Level Large Audited Dataset [66.12330208082442]
我々はCommonCrawlをベースとした,手動で監査された汎用ドメイン3TトークンモノリンガルデータセットMADLAD-400を紹介する。
我々は,MADLAD-400の自己監査による限界と,データセット作成プロセスにおけるデータ監査の役割について論じる。
論文 参考訳(メタデータ) (2023-09-09T02:34:01Z) - Total Error Sheets for Datasets (TES-D) -- A Critical Guide to
Documenting Online Platform Datasets [0.0]
本稿では,研究目的でオンラインプラットフォームから収集したデータセットを文書化するためのテンプレートを提案する。
このテンプレートは、オンラインプラットフォームデータを利用する研究分野において、データ品質を批判的に反映し、透明性を高めるのに役立つだろう。
論文 参考訳(メタデータ) (2023-06-25T12:00:09Z) - Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task [61.34108034582074]
私たちはUNITE(Unified Translation Evaluation)のコアアイデアに基づいてシステムを構築します。
モデル事前学習の段階では、まず擬似ラベル付きデータ例をUNITEの継続事前訓練に適用する。
微調整の段階では、過去のWMTコンペティションの直接評価(DA)と多次元品質メトリクス(MQM)のデータの両方を使用します。
論文 参考訳(メタデータ) (2022-10-18T08:51:25Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - A Survey on Awesome Korean NLP Datasets [0.0]
本稿では,韓国の一般的なNLPデータセットを15種類紹介し,データセットにインスパイアされたボリューム,ライセンス,レポジトリ,その他の研究結果を要約した。
データセットの主な特徴は、研究者のためにデータセットの迅速な要約を提供するために、単一のテーブルに示される。
論文 参考訳(メタデータ) (2021-10-17T03:24:05Z) - Machine Translation Customization via Automatic Training Data Selection
from the Web [97.98885151955467]
特定のドメインで機械翻訳システムをカスタマイズするためのアプローチについて説明します。
ターゲットとなる顧客データに似たデータを選択し、ニューラル翻訳モデルを訓練する。
最後に、自動選択したデータに基づいてMTモデルをトレーニングし、対象領域に特化したシステムを得る。
論文 参考訳(メタデータ) (2021-02-20T03:29:41Z) - A Parallel Evaluation Data Set of Software Documentation with Document
Structure Annotation [0.0]
データセットは英語とヒンディー語、インドネシア語、マレー語、タイ語からなる。
我々は、データセットの起源と生成、特異性、特徴、および機械翻訳結果に関する洞察を提供する。
論文 参考訳(メタデータ) (2020-08-11T06:50:23Z) - scb-mt-en-th-2020: A Large English-Thai Parallel Corpus [3.3072037841206354]
我々は100万以上のセグメント対を持つ英タイ機械翻訳データセットを構築した。
このデータセットに基づいて機械翻訳モデルを訓練する。
データセット、事前トレーニングされたモデル、私たちの作業を再現するソースコードは、パブリックに利用できます。
論文 参考訳(メタデータ) (2020-07-07T15:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。