論文の概要: From Handcrafted Features to LLMs: A Brief Survey for Machine Translation Quality Estimation
- arxiv url: http://arxiv.org/abs/2403.14118v2
- Date: Mon, 28 Oct 2024 07:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:51.781818
- Title: From Handcrafted Features to LLMs: A Brief Survey for Machine Translation Quality Estimation
- Title(参考訳): 手作り特徴からLLMへ:機械翻訳品質推定のための簡単な調査
- Authors: Haofei Zhao, Yilun Liu, Shimin Tao, Weibin Meng, Yimeng Chen, Xiang Geng, Chang Su, Min Zhang, Hao Yang,
- Abstract要約: 機械翻訳品質推定(MTQE)は、機械翻訳テキストの品質を基準翻訳を必要とせずにリアルタイムで推定するタスクである。
本稿では、QEデータセット、アノテーションメソッド、共有タスク、方法論、課題、今後の研究方向性について概観する。
- 参考スコア(独自算出の注目度): 20.64204462700532
- License:
- Abstract: Machine Translation Quality Estimation (MTQE) is the task of estimating the quality of machine-translated text in real time without the need for reference translations, which is of great importance for the development of MT. After two decades of evolution, QE has yielded a wealth of results. This article provides a comprehensive overview of QE datasets, annotation methods, shared tasks, methodologies, challenges, and future research directions. It begins with an introduction to the background and significance of QE, followed by an explanation of the concepts and evaluation metrics for word-level QE, sentence-level QE, document-level QE, and explainable QE. The paper categorizes the methods developed throughout the history of QE into those based on handcrafted features, deep learning, and Large Language Models (LLMs), with a further division of deep learning-based methods into classic deep learning and those incorporating pre-trained language models (LMs). Additionally, the article details the advantages and limitations of each method and offers a straightforward comparison of different approaches. Finally, the paper discusses the current challenges in QE research and provides an outlook on future research directions.
- Abstract(参考訳): 機械翻訳品質評価(MTQE)は,機械翻訳テキストの品質を,参照翻訳を必要とせずにリアルタイムで推定するタスクである。これはMTの開発において非常に重要である。20年間の進化を経て,QEは豊富な結果を得た。
本稿では、QEデータセット、アノテーションメソッド、共有タスク、方法論、課題、今後の研究方向性について概観する。
まず、QEの背景と重要性の紹介、続いて単語レベルのQE、文レベルのQE、文書レベルのQE、説明可能なQEの概念と評価指標の説明から始める。
本稿では,QEの歴史を通じて発達してきた手法を,手作りの特徴,深層学習,大規模言語モデル(LLM)に基づく手法に分類する。
さらに、この記事では、各メソッドの利点と制限を詳述し、異なるアプローチの直接的な比較を提供する。
最後に、QE研究における現在の課題について論じ、今後の研究方向性を展望する。
関連論文リスト
- Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - FairytaleQA Translated: Enabling Educational Question and Answer Generation in Less-Resourced Languages [0.0]
本稿では,幼児の物語理解能力の評価と向上を目的とした,有名なQAデータセットであるFairytaleQAの機械翻訳版を紹介する。
我々は、翻訳データセット内の質問生成(QG)タスクとQAタスクのベンチマークを確立するために、微調整された、控えめなスケールのモデルを採用している。
本稿では,質問応答対の生成モデルを提案し,質問適合性,回答可能性,妥当性,子どもの適合性などの品質指標を取り入れた評価を行った。
論文 参考訳(メタデータ) (2024-06-06T16:31:47Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。
本稿では,ノベルQAの設計と構築について述べる。
NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - Beyond Glass-Box Features: Uncertainty Quantification Enhanced Quality
Estimation for Neural Machine Translation [14.469503103015668]
本研究では,不確実性定量化の特徴工学を事前学習した言語間言語モデルに融合させ,翻訳品質を予測する枠組みを提案する。
実験の結果,WMT 2020 QE共有タスクのデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2021-09-15T08:05:13Z) - An Exploratory Analysis of Multilingual Word-Level Quality Estimation
with Cross-Lingual Transformers [3.4355075318742165]
単語レベルの多言語QEモデルは、現在の言語固有のモデルと同等に機能することを示す。
ゼロショットおよび少数ショットQEの場合、他の言語ペアで訓練されたモデルから、任意の新しい言語ペアに対する単語レベルの品質を正確に予測できることを実証する。
論文 参考訳(メタデータ) (2021-05-31T23:21:10Z) - Ensemble-based Transfer Learning for Low-resource Machine Translation
Quality Estimation [1.7188280334580195]
第5回機械翻訳会議(WMT20)の文レベルQE共有タスクに焦点を当てます。
このようなQEデータ不足の課題を克服するために、トランスファーラーニングを備えたアンサンブルベースの予測器推定QEモデルを提案する。
個々の言語で事前学習されたモデルと異なるレベルの並列学習コーパスと、ピアソンの相関値0.298とを組み合わせたアンサンブルモデルにおいて、最も優れた性能を実現する。
論文 参考訳(メタデータ) (2021-05-17T06:02:17Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - Unsupervised Quality Estimation for Neural Machine Translation [63.38918378182266]
既存のアプローチでは、大量の専門家アノテートデータ、計算、トレーニング時間が必要です。
MTシステム自体以外に、トレーニングや追加リソースへのアクセスが不要なQEに対して、教師なしのアプローチを考案する。
我々は品質の人間の判断と非常によく相関し、最先端の教師付きQEモデルと競合する。
論文 参考訳(メタデータ) (2020-05-21T12:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。