論文の概要: Towards the evaluation of simultaneous speech translation from a
communicative perspective
- arxiv url: http://arxiv.org/abs/2103.08364v1
- Date: Mon, 15 Mar 2021 13:09:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 19:45:40.790344
- Title: Towards the evaluation of simultaneous speech translation from a
communicative perspective
- Title(参考訳): コミュニケーションの観点からの同時音声翻訳の評価に向けて
- Authors: claudio Fantinuoli, Bianca Prandi
- Abstract要約: 本稿では,同時音声翻訳エンジンの品質評価を目的とした実験結果について述べる。
機械が情報性の観点からやや良く機能する一方で、人間の通訳者にとって、知性の観点からはより良いパフォーマンスを見出した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, machine speech-to-speech and speech-to-text translation has
gained momentum thanks to advances in artificial intelligence, especially in
the domains of speech recognition and machine translation. The quality of such
applications is commonly tested with automatic metrics, such as BLEU, primarily
with the goal of assessing improvements of releases or in the context of
evaluation campaigns. However, little is known about how such systems compare
to human performances in similar communicative tasks or how the performance of
such systems is perceived by final users.
In this paper, we present the results of an experiment aimed at evaluating
the quality of a simultaneous speech translation engine by comparing it to the
performance of professional interpreters. To do so, we select a framework
developed for the assessment of human interpreters and use it to perform a
manual evaluation on both human and machine performances. In our sample, we
found better performance for the human interpreters in terms of
intelligibility, while the machine performs slightly better in terms of
informativeness. The limitations of the study and the possible enhancements of
the chosen framework are discussed. Despite its intrinsic limitations, the use
of this framework represents a first step towards a user-centric and
communication-oriented methodology for evaluating simultaneous speech
translation.
- Abstract(参考訳): 近年, 音声認識や機械翻訳の分野では, 人工知能の進歩により, 機械語から音声への翻訳や音声への翻訳が勢いを増している。
そのようなアプリケーションの品質は、主にリリースの改善または評価キャンペーンの文脈で評価することを目標として、BLEUなどの自動メトリクスで一般的にテストされます。
しかし、同様のコミュニケーションタスクにおける人間のパフォーマンスとどのように比較されるか、または最終ユーザーによってそのようなシステムのパフォーマンスがどのように認識されるかについてはほとんど知られていません。
本稿では,同時翻訳エンジンの性能評価を専門のインタプリタの性能と比較し,その品質評価を目的とした実験結果について述べる。
そこで我々は,人間インタプリタの評価のために開発されたフレームワークを選択し,それを用いて人的・機械的なパフォーマンスを手動で評価する。
私たちのサンプルでは、機械が情報性の観点からわずかによく機能する一方で、人間の通訳者のためのより良いパフォーマンスを発見しました。
研究の限界と選択されたフレームワークの拡張の可能性について論じる。
固有の制限にもかかわらず、このフレームワークの使用は、同時音声翻訳を評価するためのユーザ中心でコミュニケーション指向の方法論への第一歩である。
関連論文リスト
- SpeechQE: Estimating the Quality of Direct Speech Translation [23.83384136789891]
音声翻訳(SpeechQE)の品質評価のタスクを定式化し、ベンチマークを構築し、カスケードアーキテクチャとエンドツーエンドアーキテクチャに基づくシステム群を評価する。
提案手法は, ケースドシステムにおけるテキストを対象とした品質推定システムよりも, 直接音声翻訳の品質を推定するのに適していると考えられる。
論文 参考訳(メタデータ) (2024-10-28T19:50:04Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Exploring the Correlation between Human and Machine Evaluation of Simultaneous Speech Translation [0.9576327614980397]
本研究では,人間の評価と相関関係を解析することにより,同時解釈評価における自動メトリクスの信頼性を評価することを目的とする。
ベンチマークでは,言語専門家による人間の評価を用いて,文の埋め込みと大規模言語モデルとの相関性を評価する。
その結果, GPTモデル, 特に直接的プロンプトを用いた GPT-3.5 は, ソーステキストとターゲットテキストのセマンティックな類似性の観点から, 人間の判断と最強の相関を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-14T14:47:19Z) - Is Context Helpful for Chat Translation Evaluation? [23.440392979857247]
我々は、機械翻訳チャットの品質を評価するために、既存の文レベル自動メトリクスのメタ評価を行う。
参照なしのメトリクスは、特に英語外設定で翻訳品質を評価する場合、参照ベースのメトリクスよりも遅れていることが分かりました。
大規模言語モデルを用いたバイリンガル文脈を用いた新しい評価指標 Context-MQM を提案する。
論文 参考訳(メタデータ) (2024-03-13T07:49:50Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - Beyond the Tip of the Iceberg: Assessing Coherence of Text Classifiers [0.05857406612420462]
大規模で事前訓練された言語モデルは、既存の言語理解タスクにおいて人間のレベルと超人的精度を達成する。
予測コヒーレンスの新しい尺度による評価システムを提案する。
論文 参考訳(メタデータ) (2021-09-10T15:04:23Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - A Set of Recommendations for Assessing Human-Machine Parity in Language
Translation [87.72302201375847]
我々は、ハサンらの中国語から英語への翻訳調査を再評価する。
専門家による翻訳では誤りが著しく少なかった。
論文 参考訳(メタデータ) (2020-04-03T17:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。