Fugu-MT 論文翻訳(概要): MT-Adapted Datasheets for Datasets: Template and Repository

論文の概要: MT-Adapted Datasheets for Datasets: Template and Repository

arxiv url: http://arxiv.org/abs/2005.13156v1
Date: Wed, 27 May 2020 04:56:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 08:58:24.754503
Title: MT-Adapted Datasheets for Datasets: Template and Repository
Title（参考訳）: mt対応データセット用データシート:テンプレートとリポジトリ
Authors: Marta R. Costa-juss\`a, Roger Creus, Oriol Domingo, Albert Dom\'inguez, Miquel Escobar, Cayetana L\'opez, Marina Garcia and Margarita Geleta
Abstract要約: 我々は、EuroParlやNews-Commentaryの一般的な機械翻訳データセットを文書化するために、Gebruらによって提案された標準化されたモデルを採用しています。このドキュメンテーションプロセスの中では、原本をマシン翻訳領域内のデータコンシューマーの特定のケースに適合させました。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this report we are taking the standardized model proposed by Gebru et al. (2018) for documenting the popular machine translation datasets of the EuroParl (Koehn, 2005) and News-Commentary (Barrault et al., 2019). Within this documentation process, we have adapted the original datasheet to the particular case of data consumers within the Machine Translation area. We are also proposing a repository for collecting the adapted datasheets in this research area
Abstract（参考訳）: 本報告では、europarl(koehn, 2005)とnews-commentary(barrault et al., 2019)の一般的な機械翻訳データセットを文書化するためにgebru et al.(2018)によって提案された標準化モデルを採用する。この文書化プロセスでは、機械翻訳領域内のデータコンシューマの特定のケースにオリジナルのデータシートを適用しました。また,本研究領域における適応データシート収集のためのリポジトリも提案している。

関連論文リスト

DatAasee -- A Metadata-Lake as Metadata Catalog for a Virtual Data-Lake [0.0]
この作業は、データレイク(メタデータレイク)から派生したデータアーキテクチャを構築する。提案するメタデータアグリゲータの概念実証実装を提示し,評価した。
論文参考訳（メタデータ） (2024-09-09T11:10:45Z)
Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文参考訳（メタデータ） (2024-09-03T17:12:21Z)
The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts [0.0]
本稿では,学校レポートの文脈における完全ラベル付きデータセットであるMERITデータセットを紹介する。その性質上、MERITデータセットは、制御された方法でバイアスを含む可能性があるため、言語モデル(LLM)で誘導されるバイアスをベンチマークするための貴重なツールである。データセットの有用性を示すため,トークン分類モデルを用いたベンチマークを行い,SOTAモデルにおいてもデータセットが重要な課題となることを示す。
論文参考訳（メタデータ） (2024-08-31T12:56:38Z)
Electric Vehicle Enquiry (EVE) Pilot [0.0]
このデータセットは、3年間のルノー動物園の利用データをカバーしている。データセットの収集プロセス、その処理、および含むすべての変数の記述について詳述する。
論文参考訳（メタデータ） (2024-03-05T08:32:21Z)
The State of Documentation Practices of Third-party Machine Learning Models and Datasets [8.494940891363813]
我々は,現在使用されている最大規模のモデルストアのひとつにおいて,モデルカードとデータセットカードの文書化の実践状況を評価する。調査の結果,21,902モデル (39.62%) と1,925データセット (28.48%) のみが文書化されていることがわかった。
論文参考訳（メタデータ） (2023-12-22T20:45:52Z)
MADLAD-400: A Multilingual And Document-Level Large Audited Dataset [66.12330208082442]
我々はCommonCrawlをベースとした,手動で監査された汎用ドメイン3TトークンモノリンガルデータセットMADLAD-400を紹介する。我々は,MADLAD-400の自己監査による限界と,データセット作成プロセスにおけるデータ監査の役割について論じる。
論文参考訳（メタデータ） (2023-09-09T02:34:01Z)
Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task [61.34108034582074]
私たちはUNITE(Unified Translation Evaluation)のコアアイデアに基づいてシステムを構築します。モデル事前学習の段階では、まず擬似ラベル付きデータ例をUNITEの継続事前訓練に適用する。微調整の段階では、過去のWMTコンペティションの直接評価(DA)と多次元品質メトリクス(MQM)のデータの両方を使用します。
論文参考訳（メタデータ） (2022-10-18T08:51:25Z)
FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文参考訳（メタデータ） (2022-10-01T05:02:04Z)
GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。 GEMv2は51言語で40のドキュメントデータセットをサポートする。すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文参考訳（メタデータ） (2022-06-22T17:52:30Z)
The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-18T20:13:51Z)
A Survey on Awesome Korean NLP Datasets [0.0]
本稿では,韓国の一般的なNLPデータセットを15種類紹介し,データセットにインスパイアされたボリューム,ライセンス,レポジトリ,その他の研究結果を要約した。データセットの主な特徴は、研究者のためにデータセットの迅速な要約を提供するために、単一のテーブルに示される。
論文参考訳（メタデータ） (2021-10-17T03:24:05Z)
Machine Translation Customization via Automatic Training Data Selection from the Web [97.98885151955467]
特定のドメインで機械翻訳システムをカスタマイズするためのアプローチについて説明します。ターゲットとなる顧客データに似たデータを選択し、ニューラル翻訳モデルを訓練する。最後に、自動選択したデータに基づいてMTモデルをトレーニングし、対象領域に特化したシステムを得る。
論文参考訳（メタデータ） (2021-02-20T03:29:41Z)
A Parallel Evaluation Data Set of Software Documentation with Document Structure Annotation [0.0]
データセットは英語とヒンディー語、インドネシア語、マレー語、タイ語からなる。我々は、データセットの起源と生成、特異性、特徴、および機械翻訳結果に関する洞察を提供する。
論文参考訳（メタデータ） (2020-08-11T06:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。