論文の概要: AlignAtt: Using Attention-based Audio-Translation Alignments as a Guide
for Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2305.11408v1
- Date: Fri, 19 May 2023 03:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 16:34:28.829232
- Title: AlignAtt: Using Attention-based Audio-Translation Alignments as a Guide
for Simultaneous Speech Translation
- Title(参考訳): AlignAtt:同時音声翻訳ガイドとしての注意に基づく音声翻訳アライメント
- Authors: Sara Papi, Marco Turchi, Matteo Negri
- Abstract要約: 本稿では,アテンション情報を利用してソース・ターゲットアライメントを生成する同時音声翻訳(SimulST)のための新しいポリシーを提案する。
AlignAttは、オフライン学習モデルに適用された従来のSimulSTポリシーよりも2点のBLEUと8言語で0.5から0.8のレイテンシ削減率で優れていたことを示す。
- 参考スコア(独自算出の注目度): 15.860792612311277
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Attention is the core mechanism of today's most used architectures for
natural language processing and has been analyzed from many perspectives,
including its effectiveness for machine translation-related tasks. Among these
studies, attention resulted to be a useful source of information to get
insights about word alignment also when the input text is substituted with
audio segments, as in the case of the speech translation (ST) task. In this
paper, we propose AlignAtt, a novel policy for simultaneous ST (SimulST) that
exploits the attention information to generate source-target alignments that
guide the model during inference. Through experiments on the 8 language pairs
of MuST-C v1.0, we show that AlignAtt outperforms previous state-of-the-art
SimulST policies applied to offline-trained models with gains in terms of BLEU
of 2 points and latency reductions ranging from 0.5s to 0.8s across the 8
languages.
- Abstract(参考訳): 自然言語処理に今日最も使われているアーキテクチャの中核的なメカニズムは注意であり、機械翻訳関連タスクの有効性を含む多くの観点から分析されてきた。
これらの研究の中で、音声翻訳(ST)タスクのように、入力テキストを音声セグメントに置き換えた場合にも、単語アライメントに関する洞察を得るのに役立つ情報源として注意が向けられた。
本稿では,提案するAlignAttを提案する。このAlignAttは,アテンション情報を利用して推論時にモデルを誘導するソース・ターゲットアライメントを生成する,同時ST(SimulST)のための新しいポリシーである。
8言語対の MuST-C v1.0 の実験により、AlignAtt はオフライン学習モデルに適用された従来の最先端の SimulST ポリシーよりも優れており、BLEU は 2 点のBLEU で、レイテンシは 8 言語で0.5 から0.8 の範囲で減少している。
関連論文リスト
- Do Audio-Language Models Understand Linguistic Variations? [42.17718387132912]
Open-vocabulary Audio Language Model (ALM)は、自然言語クエリを用いた音声テキスト検索の新しいパラダイムである。
本稿では,言語変化に対する音声表現を学習するための新しい,計算効率の高い手法であるRobostCLAPを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:55:33Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Attention as a Guide for Simultaneous Speech Translation [15.860792612311277]
同時音声翻訳(SimulST)のための注意ベースのポリシー(EDAtt)を提案する。
その目標は、エンコーダとデコーダのアテンションスコアを活用して、推論をリアルタイムでガイドすることだ。
en->de, esでは, EDAttポリシがSimulST状態と比較して総合的に優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-15T14:18:53Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - ADIMA: Abuse Detection In Multilingual Audio [28.64185949388967]
音声テキストにおける乱用コンテンツ検出は、音声認識(ASR)を実行し、自然言語処理の進歩を活用することで対処することができる。
ADIMAは,言語学的に多様であり,倫理的にも特徴的であり,注釈付きかつバランスの取れた多言語多義性検出音声データセットである。
論文 参考訳(メタデータ) (2022-02-16T11:09:50Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Attention-based Contextual Language Model Adaptation for Speech
Recognition [13.516224963932858]
我々は,テキストおよび非言語文脈データに基づいて,ニューラル音声認識言語モデルを訓練するための注意機構を導入する。
本手法は,文脈情報を含まない標準LMに対して,パープレキシティを7.0%削減する。
論文 参考訳(メタデータ) (2021-06-02T20:19:57Z) - Learning Shared Semantic Space for Speech-to-Text Translation [32.12445734213848]
テキスト機械翻訳(MT)とエンドツーエンド音声翻訳(ST)のモダリティギャップを埋める手法を提案する。
音声とテキストの機能を共通の意味表現に投影することで、ChimeraはMTタスクとSTタスクを統一する。
特に、チメラはEN-DEで26.3 BLEUを取得し、SOTAを+2.7 BLEUマージンで改善した。
論文 参考訳(メタデータ) (2021-05-07T07:49:56Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。