論文の概要: A New Tool for Efficiently Generating Quality Estimation Datasets
- arxiv url: http://arxiv.org/abs/2111.00767v1
- Date: Mon, 1 Nov 2021 08:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 01:09:47.015368
- Title: A New Tool for Efficiently Generating Quality Estimation Datasets
- Title(参考訳): 品質評価データセットを効率的に生成する新しいツール
- Authors: Sugyeong Eo, Chanjun Park, Jaehyung Seo, Hyeonseok Moon, Heuiseok Lim
- Abstract要約: 品質推定(QE)トレーニングのためのデータ構築には費用がかかり、かなりの人的労力を要する。
単言語または並列コーパスのみを入力として受信することにより、QEデータセットを生成する完全自動擬似QEデータセット生成ツールを提案する。
- 参考スコア(独自算出の注目度): 1.1374578778690623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building of data for quality estimation (QE) training is expensive and
requires significant human labor. In this study, we focus on a data-centric
approach while performing QE, and subsequently propose a fully automatic
pseudo-QE dataset generation tool that generates QE datasets by receiving only
monolingual or parallel corpus as the input. Consequently, the QE performance
is enhanced either by data augmentation or by encouraging multiple language
pairs to exploit the applicability of QE. Further, we intend to publicly
release this user friendly QE dataset generation tool as we believe this tool
provides a new, inexpensive method to the community for developing QE datasets.
- Abstract(参考訳): 品質推定(QE)トレーニングのためのデータの構築は費用がかかり、かなりの人的労力を要する。
本研究では、qeを実行しながらデータ中心のアプローチに注目し、入力として単言語または並列コーパスのみを受信してqeデータセットを生成する完全自動擬似qeデータセット生成ツールを提案する。
これにより、データ拡張または複数の言語ペアにQEの適用性を活用するように促すことにより、QE性能が向上する。
さらに、このツールがコミュニティにQEデータセットを開発するための新しい安価な方法を提供すると考えているので、ユーザフレンドリーなQEデータセット生成ツールを公開するつもりです。
関連論文リスト
- Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - QUAK: A Synthetic Quality Estimation Dataset for Korean-English Neural
Machine Translation [5.381552585149967]
品質推定(QE)は、参照文なしで機械翻訳(MT)出力の品質を自動的に予測することを目的としている。
実世界では高い実用性があるにもかかわらず、手動のQEデータ生成に関していくつかの制限がある。
韓国英語の合成QEデータセットであるQUIKを完全自動生成する。
論文 参考訳(メタデータ) (2022-09-30T07:47:44Z) - Image Quality Assessment: Integrating Model-Centric and Data-Centric
Approaches [20.931709027443706]
画像品質評価(IQA)は過去10年間で著しく進歩している。
ほぼ全員が、モデルとデータという2つの重要なコンポーネントを独立して考えています。
論文 参考訳(メタデータ) (2022-07-29T16:23:57Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - MDQE: A More Accurate Direct Pretraining for Machine Translation Quality
Estimation [4.416484585765028]
データ品質とトレーニングの目的の両方において,予測器と推定器の間にはまだギャップがある,と我々は主張する。
本稿では,QEタスクに対してより正確な事前学習を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T09:48:37Z) - DirectQE: Direct Pretraining for Machine Translation Quality Estimation [41.187833219223336]
データ品質とトレーニングの目的の両方において,予測器と推定器の間にはギャップがある,と我々は主張する。
我々は、QEタスクの直接事前学習を提供するDirectQEと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-15T06:18:49Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。