論文の概要: MT-Adapted Datasheets for Datasets: Template and Repository
- arxiv url: http://arxiv.org/abs/2005.13156v1
- Date: Wed, 27 May 2020 04:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 08:58:24.754503
- Title: MT-Adapted Datasheets for Datasets: Template and Repository
- Title(参考訳): mt対応データセット用データシート:テンプレートとリポジトリ
- Authors: Marta R. Costa-juss\`a, Roger Creus, Oriol Domingo, Albert
Dom\'inguez, Miquel Escobar, Cayetana L\'opez, Marina Garcia and Margarita
Geleta
- Abstract要約: 我々は、EuroParlやNews-Commentaryの一般的な機械翻訳データセットを文書化するために、Gebruらによって提案された標準化されたモデルを採用しています。
このドキュメンテーションプロセスの中では、原本をマシン翻訳領域内のデータコンシューマーの特定のケースに適合させました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report we are taking the standardized model proposed by Gebru et al.
(2018) for documenting the popular machine translation datasets of the EuroParl
(Koehn, 2005) and News-Commentary (Barrault et al., 2019). Within this
documentation process, we have adapted the original datasheet to the particular
case of data consumers within the Machine Translation area. We are also
proposing a repository for collecting the adapted datasheets in this research
area
- Abstract(参考訳): 本報告では、europarl(koehn, 2005)とnews-commentary(barrault et al., 2019)の一般的な機械翻訳データセットを文書化するためにgebru et al.(2018)によって提案された標準化モデルを採用する。
この文書化プロセスでは、機械翻訳領域内のデータコンシューマの特定のケースにオリジナルのデータシートを適用しました。
また,本研究領域における適応データシート収集のためのリポジトリも提案している。
関連論文リスト
- Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文 参考訳(メタデータ) (2024-09-03T17:12:21Z) - The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts [0.0]
本稿では,学校レポートの文脈における完全ラベル付きデータセットであるMERITデータセットを紹介する。
その性質上、MERITデータセットは、制御された方法でバイアスを含む可能性があるため、言語モデル(LLM)で誘導されるバイアスをベンチマークするための貴重なツールである。
データセットの有用性を示すため,トークン分類モデルを用いたベンチマークを行い,SOTAモデルにおいてもデータセットが重要な課題となることを示す。
論文 参考訳(メタデータ) (2024-08-31T12:56:38Z) - Electric Vehicle Enquiry (EVE) Pilot [0.0]
このデータセットは、3年間のルノー動物園の利用データをカバーしている。
データセットの収集プロセス、その処理、および含むすべての変数の記述について詳述する。
論文 参考訳(メタデータ) (2024-03-05T08:32:21Z) - The State of Documentation Practices of Third-party Machine Learning
Models and Datasets [8.494940891363813]
我々は,現在使用されている最大規模のモデルストアのひとつにおいて,モデルカードとデータセットカードの文書化の実践状況を評価する。
調査の結果,21,902モデル (39.62%) と1,925データセット (28.48%) のみが文書化されていることがわかった。
論文 参考訳(メタデータ) (2023-12-22T20:45:52Z) - Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task [61.34108034582074]
私たちはUNITE(Unified Translation Evaluation)のコアアイデアに基づいてシステムを構築します。
モデル事前学習の段階では、まず擬似ラベル付きデータ例をUNITEの継続事前訓練に適用する。
微調整の段階では、過去のWMTコンペティションの直接評価(DA)と多次元品質メトリクス(MQM)のデータの両方を使用します。
論文 参考訳(メタデータ) (2022-10-18T08:51:25Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - A Survey on Awesome Korean NLP Datasets [0.0]
本稿では,韓国の一般的なNLPデータセットを15種類紹介し,データセットにインスパイアされたボリューム,ライセンス,レポジトリ,その他の研究結果を要約した。
データセットの主な特徴は、研究者のためにデータセットの迅速な要約を提供するために、単一のテーブルに示される。
論文 参考訳(メタデータ) (2021-10-17T03:24:05Z) - Machine Translation Customization via Automatic Training Data Selection
from the Web [97.98885151955467]
特定のドメインで機械翻訳システムをカスタマイズするためのアプローチについて説明します。
ターゲットとなる顧客データに似たデータを選択し、ニューラル翻訳モデルを訓練する。
最後に、自動選択したデータに基づいてMTモデルをトレーニングし、対象領域に特化したシステムを得る。
論文 参考訳(メタデータ) (2021-02-20T03:29:41Z) - A Parallel Evaluation Data Set of Software Documentation with Document
Structure Annotation [0.0]
データセットは英語とヒンディー語、インドネシア語、マレー語、タイ語からなる。
我々は、データセットの起源と生成、特異性、特徴、および機械翻訳結果に関する洞察を提供する。
論文 参考訳(メタデータ) (2020-08-11T06:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。