論文の概要: Attention as a guide for Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2212.07850v1
- Date: Thu, 15 Dec 2022 14:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:43:03.255840
- Title: Attention as a guide for Simultaneous Speech Translation
- Title(参考訳): 同時音声翻訳ガイドとしての留意点
- Authors: Sara Papi, Matteo Negri, Marco Turchi
- Abstract要約: 同時音声翻訳(SimulST)のための注意ベースのポリシー(EDAtt)を提案する。
その目標は、エンコーダとデコーダのアテンションスコアを活用して、推論をリアルタイムでガイドすることだ。
en->de, esでは, EDAttポリシがSimulST状態と比較して総合的に優れた結果が得られることが示された。
- 参考スコア(独自算出の注目度): 15.860792612311277
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The study of the attention mechanism has sparked interest in many fields,
such as language modeling and machine translation. Although its patterns have
been exploited to perform different tasks, from neural network understanding to
textual alignment, no previous work has analysed the encoder-decoder attention
behavior in speech translation (ST) nor used it to improve ST on a specific
task. In this paper, we fill this gap by proposing an attention-based policy
(EDAtt) for simultaneous ST (SimulST) that is motivated by an analysis of the
existing attention relations between audio input and textual output. Its goal
is to leverage the encoder-decoder attention scores to guide inference in real
time. Results on en->{de, es} show that the EDAtt policy achieves overall
better results compared to the SimulST state of the art, especially in terms of
computational-aware latency.
- Abstract(参考訳): 注意機構の研究は言語モデリングや機械翻訳など多くの分野への関心を喚起している。
ニューラルネットワークの理解からテキストアライメントに至るまで,そのパターンはさまざまなタスクを実行するために利用されてきたが,音声翻訳(ST)におけるエンコーダ・デコーダの注意行動の解析や,特定のタスクにおいてSTを改善するために使用する以前の研究は行われていない。
本稿では、音声入力とテキスト出力の既存の注意関係の分析により動機付けられた同時ST(SimulST)に対する注意ベースのポリシー(EDAtt)を提案することにより、このギャップを埋める。
その目標は、エンコーダ-デコーダアテンションスコアを利用して推論をリアルタイムでガイドすることである。
en->{de, es} の結果から,EDAtt ポリシは,特に計算に意識したレイテンシの観点から,技術の SimulST 状態と比較して総合的に優れた結果が得られることが示された。
関連論文リスト
- STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - AlignAtt: Using Attention-based Audio-Translation Alignments as a Guide
for Simultaneous Speech Translation [15.860792612311277]
本稿では,アテンション情報を利用してソース・ターゲットアライメントを生成する同時音声翻訳(SimulST)のための新しいポリシーを提案する。
AlignAttは、オフライン学習モデルに適用された従来のSimulSTポリシーよりも2点のBLEUと8言語で0.5から0.8のレイテンシ削減率で優れていたことを示す。
論文 参考訳(メタデータ) (2023-05-19T03:31:42Z) - On the Locality of Attention in Direct Speech Translation [0.1749935196721634]
トランスフォーマーは複数のNLPタスクにまたがって最先端の結果を得た。
直接音声翻訳における自己注意の有用性について論じる。
論文 参考訳(メタデータ) (2022-04-19T17:43:37Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Visualization: the missing factor in Simultaneous Speech Translation [14.454116027072335]
同時音声翻訳(SimulST)は、部分的なインクリメンタル音声入力に対して出力生成を行うタスクである。
SimulSTは、言語間アプリケーションシナリオの普及により人気を博している。
論文 参考訳(メタデータ) (2021-10-31T14:44:01Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Improving BERT with Syntax-aware Local Attention [14.70545694771721]
そこで本研究では,構文構造における距離を対象とする局所的注意度(局所注意度)を提案する。
文分類やシーケンスラベリングタスクなど,シングルセンテンスベンチマークの各種実験を行った。
我々のモデルは、構文的に関連のある単語により注意を払って、より良いパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-12-30T13:29:58Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。