論文の概要: Visualization: the missing factor in Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2111.00514v1
- Date: Sun, 31 Oct 2021 14:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 14:59:20.150568
- Title: Visualization: the missing factor in Simultaneous Speech Translation
- Title(参考訳): 可視化:同時音声翻訳における欠落要因
- Authors: Sara Papi, Matteo Negri, Marco Turchi
- Abstract要約: 同時音声翻訳(SimulST)は、部分的なインクリメンタル音声入力に対して出力生成を行うタスクである。
SimulSTは、言語間アプリケーションシナリオの普及により人気を博している。
- 参考スコア(独自算出の注目度): 14.454116027072335
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Simultaneous speech translation (SimulST) is the task in which output
generation has to be performed on partial, incremental speech input. In recent
years, SimulST has become popular due to the spread of cross-lingual
application scenarios, like international live conferences and streaming
lectures, in which on-the-fly speech translation can facilitate users' access
to audio-visual content. In this paper, we analyze the characteristics of the
SimulST systems developed so far, discussing their strengths and weaknesses. We
then concentrate on the evaluation framework required to properly assess
systems' effectiveness. To this end, we raise the need for a broader
performance analysis, also including the user experience standpoint. SimulST
systems, indeed, should be evaluated not only in terms of quality/latency
measures, but also via task-oriented metrics accounting, for instance, for the
visualization strategy adopted. In light of this, we highlight which are the
goals achieved by the community and what is still missing.
- Abstract(参考訳): 同時音声翻訳(SimulST)は、部分的なインクリメンタル音声入力に対して出力生成を行うタスクである。
近年、国際ライブ会議やストリーミング講義など、音声・視覚コンテンツへのアクセスを容易にする言語横断的なアプリケーションシナリオの普及により、SimulSTの人気が高まっている。
本稿では,これまでのSimulSTシステムの特徴を分析し,その強度と弱点について考察する。
次に,システムの有効性を適切に評価するために必要な評価フレームワークに注目する。
この目的のために、ユーザエクスペリエンスの観点からも、より広範なパフォーマンス分析の必要性を高めます。
シミュレーションシステムは、品質/レイテンシの測定だけでなく、例えば、採用されている可視化戦略のタスク指向のメトリクス会計によって評価されるべきである。
これを踏まえて,コミュニティが達成した目標と,いまだに欠けているものを強調する。
関連論文リスト
- STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Analysis of Visual Features for Continuous Lipreading in Spanish [0.0]
リップリーディングは、音声が利用できないときに音声を解釈することを目的とする複雑なタスクである。
そこで本稿では, 自然スペイン語における唇運動の特徴をとらえる上で, どちらが最適かを特定することを目的とした, 異なる音声視覚特徴の分析手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:28:00Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Attention as a Guide for Simultaneous Speech Translation [15.860792612311277]
同時音声翻訳(SimulST)のための注意ベースのポリシー(EDAtt)を提案する。
その目標は、エンコーダとデコーダのアテンションスコアを活用して、推論をリアルタイムでガイドすることだ。
en->de, esでは, EDAttポリシがSimulST状態と比較して総合的に優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-15T14:18:53Z) - Towards the evaluation of simultaneous speech translation from a
communicative perspective [0.0]
本稿では,同時音声翻訳エンジンの品質評価を目的とした実験結果について述べる。
機械が情報性の観点からやや良く機能する一方で、人間の通訳者にとって、知性の観点からはより良いパフォーマンスを見出した。
論文 参考訳(メタデータ) (2021-03-15T13:09:00Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。