Fugu-MT 論文翻訳(概要): Visualization: the missing factor in Simultaneous Speech Translation

論文の概要: Visualization: the missing factor in Simultaneous Speech Translation

arxiv url: http://arxiv.org/abs/2111.00514v1
Date: Sun, 31 Oct 2021 14:44:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-02 14:59:20.150568
Title: Visualization: the missing factor in Simultaneous Speech Translation
Title（参考訳）: 可視化:同時音声翻訳における欠落要因
Authors: Sara Papi, Matteo Negri, Marco Turchi
Abstract要約: 同時音声翻訳(SimulST)は、部分的なインクリメンタル音声入力に対して出力生成を行うタスクである。 SimulSTは、言語間アプリケーションシナリオの普及により人気を博している。
参考スコア（独自算出の注目度）: 14.454116027072335
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Simultaneous speech translation (SimulST) is the task in which output generation has to be performed on partial, incremental speech input. In recent years, SimulST has become popular due to the spread of cross-lingual application scenarios, like international live conferences and streaming lectures, in which on-the-fly speech translation can facilitate users' access to audio-visual content. In this paper, we analyze the characteristics of the SimulST systems developed so far, discussing their strengths and weaknesses. We then concentrate on the evaluation framework required to properly assess systems' effectiveness. To this end, we raise the need for a broader performance analysis, also including the user experience standpoint. SimulST systems, indeed, should be evaluated not only in terms of quality/latency measures, but also via task-oriented metrics accounting, for instance, for the visualization strategy adopted. In light of this, we highlight which are the goals achieved by the community and what is still missing.
Abstract（参考訳）: 同時音声翻訳(SimulST)は、部分的なインクリメンタル音声入力に対して出力生成を行うタスクである。近年、国際ライブ会議やストリーミング講義など、音声・視覚コンテンツへのアクセスを容易にする言語横断的なアプリケーションシナリオの普及により、SimulSTの人気が高まっている。本稿では,これまでのSimulSTシステムの特徴を分析し,その強度と弱点について考察する。次に,システムの有効性を適切に評価するために必要な評価フレームワークに注目する。この目的のために、ユーザエクスペリエンスの観点からも、より広範なパフォーマンス分析の必要性を高めます。シミュレーションシステムは、品質/レイテンシの測定だけでなく、例えば、採用されている可視化戦略のタスク指向のメトリクス会計によって評価されるべきである。これを踏まえて,コミュニティが達成した目標と,いまだに欠けているものを強調する。

関連論文リスト

Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文参考訳（メタデータ） (2025-05-25T08:37:55Z)
Summarizing Speech: A Comprehensive Survey [76.13011304983458]
音声の要約は、音声・音声コンテンツの増加量を効率的に管理し、アクセスするために欠かせないツールとなっている。本調査では,要約手法の質を評価する上で重要な,既存のデータセットと評価プロトコルについて検討する。
論文参考訳（メタデータ） (2025-04-10T17:50:53Z)
How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System? [7.252894835396412]
シマルST(SimulST)は、話者の音声とソース言語音声を同時に翻訳し、ユーザの理解を深めるために低レイテンシを確保する。非有界音声への応用を意図したものの、ほとんどの研究は、人間の事前隔離された音声に焦点を当て、タスクを単純化し、重要な課題を見落としている。
論文参考訳（メタデータ） (2024-12-24T15:26:31Z)
STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。 Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文参考訳（メタデータ） (2024-09-04T02:20:59Z)
An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-06-13T08:16:52Z)
Analysis of Visual Features for Continuous Lipreading in Spanish [0.0]
リップリーディングは、音声が利用できないときに音声を解釈することを目的とする複雑なタスクである。そこで本稿では, 自然スペイン語における唇運動の特徴をとらえる上で, どちらが最適かを特定することを目的とした, 異なる音声視覚特徴の分析手法を提案する。
論文参考訳（メタデータ） (2023-11-21T09:28:00Z)
DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文参考訳（メタデータ） (2023-09-14T19:33:27Z)
End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文参考訳（メタデータ） (2023-08-07T09:06:20Z)
KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文参考訳（メタデータ） (2023-06-08T16:13:20Z)
Attention as a Guide for Simultaneous Speech Translation [15.860792612311277]
同時音声翻訳(SimulST)のための注意ベースのポリシー(EDAtt)を提案する。その目標は、エンコーダとデコーダのアテンションスコアを活用して、推論をリアルタイムでガイドすることだ。 en->de, esでは, EDAttポリシがSimulST状態と比較して総合的に優れた結果が得られることが示された。
論文参考訳（メタデータ） (2022-12-15T14:18:53Z)
Towards the evaluation of simultaneous speech translation from a communicative perspective [0.0]
本稿では,同時音声翻訳エンジンの品質評価を目的とした実験結果について述べる。機械が情報性の観点からやや良く機能する一方で、人間の通訳者にとって、知性の観点からはより良いパフォーマンスを見出した。
論文参考訳（メタデータ） (2021-03-15T13:09:00Z)
Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文参考訳（メタデータ） (2020-10-26T13:57:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。