論文の概要: Continuous Rating as Reliable Human Evaluation of Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2203.02458v2
- Date: Thu, 14 Nov 2024 10:15:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-17 16:50:44.082008
- Title: Continuous Rating as Reliable Human Evaluation of Simultaneous Speech Translation
- Title(参考訳): 同時音声翻訳の信頼性評価としての連続的レーティング
- Authors: Dávid Javorský, Dominik Macháček, Ondřej Bojar,
- Abstract要約: 本研究では,ソース言語知識の異なる審査員を対象に,連続レーティングと事実アンケートを比較した。
以上の結果から,判断者がソース言語について少なくとも限られた知識を持っている場合,連続レーティングは容易かつ信頼性の高いSST品質評価であることが示された。
- 参考スコア(独自算出の注目度): 1.3654846342364308
- License:
- Abstract: Simultaneous speech translation (SST) can be evaluated on simulated online events where human evaluators watch subtitled videos and continuously express their satisfaction by pressing buttons (so called Continuous Rating). Continuous Rating is easy to collect, but little is known about its reliability, or relation to comprehension of foreign language document by SST users. In this paper, we contrast Continuous Rating with factual questionnaires on judges with different levels of source language knowledge. Our results show that Continuous Rating is easy and reliable SST quality assessment if the judges have at least limited knowledge of the source language. Our study indicates users' preferences on subtitle layout and presentation style and, most importantly, provides a significant evidence that users with advanced source language knowledge prefer low latency over fewer re-translations.
- Abstract(参考訳): 同時音声翻訳(SST)は、人間の評価者が字幕付きビデオを見て、ボタンを押してその満足度を連続的に表現するオンラインイベント(いわゆる連続レーティング)で評価することができる。
継続的レーティングは容易に収集できるが、信頼性や、SSTユーザによる外国語文書の理解との関係についてはほとんど分かっていない。
本稿では,コンティネントレーティングと,異なるレベルのソース言語知識を持つ審査員の実態調査を対比する。
以上の結果から,判断者がソース言語について少なくとも限られた知識を持っている場合,連続レーティングは容易かつ信頼性の高いSST品質評価であることが示された。
本研究は,字幕レイアウトやプレゼンテーションスタイルに対するユーザの嗜好を示すとともに,より高度なソースコード知識を持つユーザは,より少ない再翻訳よりも低レイテンシを好むことを示す重要な証拠を提供する。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - Crowdsourced Multilingual Speech Intelligibility Testing [0.0]
本稿では,クラウドソースによるインテリジェンス評価のためのアプローチを提案する。
テスト設計、多言語音声データの収集と公開、および初期の実験結果について詳述する。
論文 参考訳(メタデータ) (2024-03-21T20:14:53Z) - Is Context Helpful for Chat Translation Evaluation? [23.440392979857247]
我々は、機械翻訳チャットの品質を評価するために、既存の文レベル自動メトリクスのメタ評価を行う。
参照なしのメトリクスは、特に英語外設定で翻訳品質を評価する場合、参照ベースのメトリクスよりも遅れていることが分かりました。
大規模言語モデルを用いたバイリンガル文脈を用いた新しい評価指標 Context-MQM を提案する。
論文 参考訳(メタデータ) (2024-03-13T07:49:50Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - MT Metrics Correlate with Human Ratings of Simultaneous Speech
Translation [10.132491257235024]
本研究では,CR(Continuous Ratings)とオフライン機械翻訳評価指標の相関分析を行った。
本研究は,オフラインのメトリクスがCRとよく相関していることを明らかにし,同時に機械翻訳を評価するために確実に使用できることを示した。
SSTの現在の品質レベルを考えると、これらの指標はCRのプロキシとして利用することができ、大規模な人的評価の必要性を軽減することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-16T03:03:56Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Towards the evaluation of simultaneous speech translation from a
communicative perspective [0.0]
本稿では,同時音声翻訳エンジンの品質評価を目的とした実験結果について述べる。
機械が情報性の観点からやや良く機能する一方で、人間の通訳者にとって、知性の観点からはより良いパフォーマンスを見出した。
論文 参考訳(メタデータ) (2021-03-15T13:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。