論文の概要: Audio-Based Crowd-Sourced Evaluation of Machine Translation Quality
- arxiv url: http://arxiv.org/abs/2509.14023v1
- Date: Wed, 17 Sep 2025 14:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.870441
- Title: Audio-Based Crowd-Sourced Evaluation of Machine Translation Quality
- Title(参考訳): 音声を用いたクラウドソースによる機械翻訳品質の評価
- Authors: Sami Ul Haq, Sheila Castilho, Yvette Graham,
- Abstract要約: 機械翻訳(MT)は、音声翻訳とマルチモーダルアプローチへの関心が高まり、目覚ましい性能を達成した。
本研究は,WMT General MT Shared Task を用いた10 MTシステムのテキストのみと音声による評価を比較した。
音声収率ランキングに基づくクラウドソースによる評価は、テキストのみの評価とほぼ一致しているが、場合によっては翻訳システム間の大きな違いを識別する。
- 参考スコア(独自算出の注目度): 3.7842130830138943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Translation (MT) has achieved remarkable performance, with growing interest in speech translation and multimodal approaches. However, despite these advancements, MT quality assessment remains largely text centric, typically relying on human experts who read and compare texts. Since many real-world MT applications (e.g Google Translate Voice Mode, iFLYTEK Translator) involve translation being spoken rather printed or read, a more natural way to assess translation quality would be through speech as opposed text-only evaluations. This study compares text-only and audio-based evaluations of 10 MT systems from the WMT General MT Shared Task, using crowd-sourced judgments collected via Amazon Mechanical Turk. We additionally, performed statistical significance testing and self-replication experiments to test reliability and consistency of audio-based approach. Crowd-sourced assessments based on audio yield rankings largely consistent with text only evaluations but, in some cases, identify significant differences between translation systems. We attribute this to speech richer, more natural modality and propose incorporating speech-based assessments into future MT evaluation frameworks.
- Abstract(参考訳): 機械翻訳(MT)は、音声翻訳やマルチモーダルアプローチへの関心が高まり、目覚ましい性能を達成した。
しかし、これらの進歩にもかかわらず、MTの品質評価は主にテキスト中心であり、典型的にはテキストを読み、比較する人間の専門家に依存している。
多くの現実世界のMTアプリケーション(例えば、Google Translate Voice Mode、iFLYTEK Translator)は、むしろ印刷されたり読まれたりしているので、翻訳品質を評価するより自然な方法は、テキストのみの評価として音声によって行われる。
本研究は、WMT General MT Shared Taskからの10 MTシステムに対するテキストのみおよび音声に基づく評価を、Amazon Mechanical Turkを介して収集されたクラウドソースによる判断を用いて比較した。
また,音声に基づく手法の信頼性と整合性をテストするために,統計的意義試験と自己複製実験を行った。
音声収率ランキングに基づくクラウドソースによる評価は、テキストのみの評価とほぼ一致しているが、場合によっては翻訳システム間の大きな違いを識別する。
我々はこれを、よりリッチで自然なモダリティとみなし、将来のMT評価フレームワークに音声に基づくアセスメントを取り入れることを提案する。
関連論文リスト
- Languages Still Left Behind: Toward a Better Multilingual Machine Translation Benchmark [11.068031181100276]
我々は4つの言語(Asante Twi, Japanese, Jinghpaw, South Azerbaijani)のデータを研究する。
真の多言語評価に対するベンチマークの適合性の重大な欠点を明らかにする。
我々は、ドメイン汎用および文化的に中立なソーステキストを使用する多言語MTベンチマークを提唱する。
論文 参考訳(メタデータ) (2025-08-28T07:52:42Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - Can Your Context-Aware MT System Pass the DiP Benchmark Tests? :
Evaluation Benchmarks for Discourse Phenomena in Machine Translation [7.993547048820065]
本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。
驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
論文 参考訳(メタデータ) (2020-04-30T07:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。