論文の概要: Quality Estimation without Human-labeled Data
- arxiv url: http://arxiv.org/abs/2102.04020v1
- Date: Mon, 8 Feb 2021 06:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:45:43.797833
- Title: Quality Estimation without Human-labeled Data
- Title(参考訳): 人間ラベルデータのない品質評価
- Authors: Yi-Lin Tuan, Ahmed El-Kishky, Adithya Renduchintala, Vishrav
Chaudhary, Francisco Guzm\'an, Lucia Specia
- Abstract要約: 品質評価は、参照翻訳にアクセスすることなく、翻訳されたコンテンツの質を測定することを目的としている。
本稿では,人間アノテーションの例に頼らず,合成学習データを用いた手法を提案する。
合成データの品質評価を教師するオフ・ザ・シェルフアーキテクチャをトレーニングし、結果として得られたモデルが、人間の注釈付きデータに基づいてトレーニングされたモデルに匹敵する性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 25.25993509174361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quality estimation aims to measure the quality of translated content without
access to a reference translation. This is crucial for machine translation
systems in real-world scenarios where high-quality translation is needed. While
many approaches exist for quality estimation, they are based on supervised
machine learning requiring costly human labelled data. As an alternative, we
propose a technique that does not rely on examples from human-annotators and
instead uses synthetic training data. We train off-the-shelf architectures for
supervised quality estimation on our synthetic data and show that the resulting
models achieve comparable performance to models trained on human-annotated
data, both for sentence and word-level prediction.
- Abstract(参考訳): 品質推定は、参照翻訳にアクセスせずに翻訳コンテンツの品質を測定することを目的としている。
これは、高品質の翻訳が必要な現実世界のシナリオにおける機械翻訳システムにとって重要です。
品質推定には多くのアプローチがあるが、高価なラベル付きデータを必要とする教師あり機械学習に基づいている。
代替案として,ヒトアナノテータの例に頼らず,合成トレーニングデータを用いた手法を提案する。
合成データの品質推定を教師ありにするために市販アーキテクチャを訓練し、文と単語レベルの予測の両方において、人間の注釈付きデータで訓練されたモデルと同等の性能が得られることを示す。
関連論文リスト
- Are Large Language Models State-of-the-art Quality Estimators for Machine Translation of User-generated Content? [6.213698466889738]
本稿では,ユーザ生成コンテンツ(UGC)の機械翻訳において,大規模言語モデル(LLM)が最先端の品質評価手法であるかどうかを検討する。
既存の感情関連データセットに人為的アノテートエラーを付加し,多次元品質指標に基づく品質評価スコアを算出した。
論文 参考訳(メタデータ) (2024-10-08T20:16:59Z) - Scaling Parameter-Constrained Language Models with Quality Data [32.35610029333478]
言語モデリングにおける法則のスケーリングは、伝統的にデータセットのサイズとモデルパラメータの関数としてトレーニング損失を定量化する。
我々は,従来のスケーリング法則の理解を,元の定式化におけるデータ品質の微視的なビューを提供することによって拡張する。
論文 参考訳(メタデータ) (2024-10-04T02:07:17Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - A Novel Metric for Measuring Data Quality in Classification Applications
(extended version) [0.0]
データ品質を測定するための新しい指標を紹介し説明する。
この尺度は、分類性能とデータの劣化の相関した進化に基づいている。
各基準の解釈と評価レベルの例を提供する。
論文 参考訳(メタデータ) (2023-12-13T11:20:09Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - Detecting over/under-translation errors for determining adequacy in
human translations [0.0]
本稿では,翻訳評価における誤りチェックの一部として,OT/UT(Over and Under translations)の新たな手法を提案する。
我々は、機械翻訳(mt)出力に制限はせず、特に人間が生成した翻訳パイプラインでアプリケーションをターゲットにしています。
本システムの目的は、人間の翻訳ビデオ字幕からOT/UTエラーを高いエラーリコールで識別することである。
論文 参考訳(メタデータ) (2021-04-01T06:06:36Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Sentence Level Human Translation Quality Estimation with Attention-based
Neural Networks [0.30458514384586394]
本稿では,人間の翻訳品質の自動推定にDeep Learning法を用いる方法について検討する。
大規模な人間の注釈付きデータセットの実証結果は、ニューラルモデルが特徴に基づく手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-03-13T16:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。