Fugu-MT 論文翻訳(概要): End-to-End Evaluation for Low-Latency Simultaneous Speech Translation

論文の概要: End-to-End Evaluation for Low-Latency Simultaneous Speech Translation

arxiv url: http://arxiv.org/abs/2308.03415v3
Date: Wed, 17 Jul 2024 11:29:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 23:28:28.644129
Title: End-to-End Evaluation for Low-Latency Simultaneous Speech Translation
Title（参考訳）: 低レイテンシ同時音声翻訳におけるエンドツーエンド評価
Authors: Christian Huber, Tu Anh Dinh, Carlos Mullov, Ngoc Quan Pham, Thai Binh Nguyen, Fabian Retkowski, Stefan Constantin, Enes Yavuz Ugan, Danni Liu, Zhaolin Li, Sai Koneru, Jan Niehues, Alexander Waibel,
Abstract要約: 本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
参考スコア（独自算出の注目度）: 55.525125193856084
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The challenge of low-latency speech translation has recently draw significant interest in the research community as shown by several publications and shared tasks. Therefore, it is essential to evaluate these different approaches in realistic scenarios. However, currently only specific aspects of the systems are evaluated and often it is not possible to compare different approaches. In this work, we propose the first framework to perform and evaluate the various aspects of low-latency speech translation under realistic conditions. The evaluation is carried out in an end-to-end fashion. This includes the segmentation of the audio as well as the run-time of the different components. Secondly, we compare different approaches to low-latency speech translation using this framework. We evaluate models with the option to revise the output as well as methods with fixed output. Furthermore, we directly compare state-of-the-art cascaded as well as end-to-end systems. Finally, the framework allows to automatically evaluate the translation quality as well as latency and also provides a web interface to show the low-latency model outputs to the user.
Abstract（参考訳）: 低遅延音声翻訳の課題は、いくつかの出版物や共有タスクで示されるように、最近、研究コミュニティにおいて大きな関心を集めている。したがって、これらの異なるアプローチを現実的なシナリオで評価することが不可欠である。しかし、現時点ではシステムの特定の側面のみが評価されており、異なるアプローチを比較することはしばしば不可能である。本研究では,現実的な条件下での低遅延音声翻訳の諸側面の実行と評価を行うための第1の枠組みを提案する。評価はエンドツーエンドで行われる。これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。第2に,このフレームワークを用いた低遅延音声翻訳における異なるアプローチを比較した。我々は、出力を更新するオプションを持つモデルと、固定出力を持つメソッドを評価する。さらに、最先端のカスケードシステムとエンドツーエンドシステムを直接比較する。最後に、このフレームワークは翻訳品質とレイテンシを自動的に評価し、低レイテンシモデルの出力をユーザに示すWebインターフェースを提供する。

関連論文リスト

AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。 AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文参考訳（メタデータ） (2025-08-29T07:40:39Z)
Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文参考訳（メタデータ） (2024-10-16T09:42:29Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)
Negation-Instance Based Evaluation of End-to-End Negation Resolution [10.56502771201411]
否定の解決性を評価するための否定的アプローチについて論じる。提案した指標は, インスタンス当たりの期待値と一致し, 直感的に解釈可能である。 3つの英コーパス上での否定解決のための最新技術システムについて結果を提供する。
論文参考訳（メタデータ） (2021-09-21T07:49:41Z)
Comprehensive Studies for Arbitrary-shape Scene Text Detection [78.50639779134944]
ボトムアップに基づくシーンテキスト検出のための統合フレームワークを提案する。統一されたフレームワークの下では、非コアモジュールの一貫性のある設定が保証されます。包括的調査と精巧な分析により、以前のモデルの利点と欠点を明らかにしている。
論文参考訳（メタデータ） (2021-07-25T13:18:55Z)
Towards the evaluation of simultaneous speech translation from a communicative perspective [0.0]
本稿では,同時音声翻訳エンジンの品質評価を目的とした実験結果について述べる。機械が情報性の観点からやや良く機能する一方で、人間の通訳者にとって、知性の観点からはより良いパフォーマンスを見出した。
論文参考訳（メタデータ） (2021-03-15T13:09:00Z)
A Comparison of Approaches to Document-level Machine Translation [34.2276281264886]
本稿では,文書レベルの現象評価スイートに対して選択したアプローチを体系的に比較する。我々は,単言語文書レベルでのバック翻訳に基づく単純な手法が,より精巧な代替手段として機能することを見出した。
論文参考訳（メタデータ） (2021-01-26T19:21:09Z)
Streaming Models for Joint Speech Recognition and Translation [11.657994715914748]
再翻訳アプローチに基づくエンドツーエンドのストリーミングSTモデルを開発し、標準のカスケードアプローチと比較します。また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。
論文参考訳（メタデータ） (2021-01-22T15:16:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。