論文の概要: Visualization: the missing factor in Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2111.00514v1
- Date: Sun, 31 Oct 2021 14:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 14:59:20.150568
- Title: Visualization: the missing factor in Simultaneous Speech Translation
- Title(参考訳): 可視化:同時音声翻訳における欠落要因
- Authors: Sara Papi, Matteo Negri, Marco Turchi
- Abstract要約: 同時音声翻訳(SimulST)は、部分的なインクリメンタル音声入力に対して出力生成を行うタスクである。
SimulSTは、言語間アプリケーションシナリオの普及により人気を博している。
- 参考スコア(独自算出の注目度): 14.454116027072335
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Simultaneous speech translation (SimulST) is the task in which output
generation has to be performed on partial, incremental speech input. In recent
years, SimulST has become popular due to the spread of cross-lingual
application scenarios, like international live conferences and streaming
lectures, in which on-the-fly speech translation can facilitate users' access
to audio-visual content. In this paper, we analyze the characteristics of the
SimulST systems developed so far, discussing their strengths and weaknesses. We
then concentrate on the evaluation framework required to properly assess
systems' effectiveness. To this end, we raise the need for a broader
performance analysis, also including the user experience standpoint. SimulST
systems, indeed, should be evaluated not only in terms of quality/latency
measures, but also via task-oriented metrics accounting, for instance, for the
visualization strategy adopted. In light of this, we highlight which are the
goals achieved by the community and what is still missing.
- Abstract(参考訳): 同時音声翻訳(SimulST)は、部分的なインクリメンタル音声入力に対して出力生成を行うタスクである。
近年、国際ライブ会議やストリーミング講義など、音声・視覚コンテンツへのアクセスを容易にする言語横断的なアプリケーションシナリオの普及により、SimulSTの人気が高まっている。
本稿では,これまでのSimulSTシステムの特徴を分析し,その強度と弱点について考察する。
次に,システムの有効性を適切に評価するために必要な評価フレームワークに注目する。
この目的のために、ユーザエクスペリエンスの観点からも、より広範なパフォーマンス分析の必要性を高めます。
シミュレーションシステムは、品質/レイテンシの測定だけでなく、例えば、採用されている可視化戦略のタスク指向のメトリクス会計によって評価されるべきである。
これを踏まえて,コミュニティが達成した目標と,いまだに欠けているものを強調する。
関連論文リスト
- Analysis of Visual Features for Continuous Lipreading in Spanish [0.0]
リップリーディングは、音声が利用できないときに音声を解釈することを目的とする複雑なタスクである。
そこで本稿では, 自然スペイン語における唇運動の特徴をとらえる上で, どちらが最適かを特定することを目的とした, 異なる音声視覚特徴の分析手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:28:00Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [56.76828917401644]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Attention as a Guide for Simultaneous Speech Translation [15.860792612311277]
同時音声翻訳(SimulST)のための注意ベースのポリシー(EDAtt)を提案する。
その目標は、エンコーダとデコーダのアテンションスコアを活用して、推論をリアルタイムでガイドすることだ。
en->de, esでは, EDAttポリシがSimulST状態と比較して総合的に優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-15T14:18:53Z) - Curriculum Learning for Goal-Oriented Semantic Communications with a
Common Language [60.85719227557608]
話者とリスナーが協調して一連のタスクを実行することを可能にするために,総合目標指向のセマンティックコミュニケーションフレームワークを提案する。
話者とリスナーのセマンティックコミュニケーションを実現するために,階層的信念に基づく共通言語を提案する。
最適化問題は、イベントの完全かつ抽象的な記述を決定するために定義される。
論文 参考訳(メタデータ) (2022-04-21T22:36:06Z) - MeetDot: Videoconferencing with Live Translation Captions [18.60812558978417]
本稿では,ビデオ会議システムであるMeetDotについて紹介する。
本システムでは、4言語での音声とキャプションをサポートし、自動音声認識(ASR)と機械翻訳(MT)をカスケードで組み合わせる。
我々は,スムーズなスクロールキャプションやキャプションフリックの削減など,ユーザエクスペリエンスの向上と認知負荷の低減のために,いくつかの機能を実装した。
論文 参考訳(メタデータ) (2021-09-20T14:34:14Z) - Towards the evaluation of simultaneous speech translation from a
communicative perspective [0.0]
本稿では,同時音声翻訳エンジンの品質評価を目的とした実験結果について述べる。
機械が情報性の観点からやや良く機能する一方で、人間の通訳者にとって、知性の観点からはより良いパフォーマンスを見出した。
論文 参考訳(メタデータ) (2021-03-15T13:09:00Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。