論文の概要: Investigating the Reordering Capability in CTC-based Non-Autoregressive
End-to-End Speech Translation
- arxiv url: http://arxiv.org/abs/2105.04840v1
- Date: Tue, 11 May 2021 07:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:00:04.247075
- Title: Investigating the Reordering Capability in CTC-based Non-Autoregressive
End-to-End Speech Translation
- Title(参考訳): CTCに基づく非自己回帰型エンドツーエンド音声翻訳における順序付け能力の検討
- Authors: Shun-Po Chuang, Yung-Sung Chuang, Chih-Chiang Chang, Hung-yi Lee
- Abstract要約: 接続型時間分類(CTC)を用いた非回帰型音声-テキスト翻訳モデルの構築の可能性について検討する。
CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。
解析の結果、トランスフォーマーエンコーダは単語の順序を変えることができることがわかった。
- 参考スコア(独自算出の注目度): 62.943925893616196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the possibilities of building a non-autoregressive speech-to-text
translation model using connectionist temporal classification (CTC), and use
CTC-based automatic speech recognition as an auxiliary task to improve the
performance. CTC's success on translation is counter-intuitive due to its
monotonicity assumption, so we analyze its reordering capability. Kendall's tau
distance is introduced as the quantitative metric, and gradient-based
visualization provides an intuitive way to take a closer look into the model.
Our analysis shows that transformer encoders have the ability to change the
word order and points out the future research direction that worth being
explored more on non-autoregressive speech translation.
- Abstract(参考訳): 本稿では,ctc(connectionist temporal classification)を用いた非自己回帰型音声-テキスト翻訳モデルの構築の可能性について検討し,ctcに基づく自動音声認識を補助タスクとして活用し,性能の向上を図る。
CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。
ケンドールのタウ距離は量的計量として導入され、勾配に基づく可視化はモデルをより詳しく見るための直感的な方法を提供する。
分析の結果、トランスフォーマーエンコーダは単語の順序を変えることができ、非自己回帰的な音声翻訳に価値がある今後の研究方向を指摘している。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Markovian Transformers for Informative Language Modeling [0.9642500063568188]
CoT(Chain-of-Thought)推論は、言語モデルのアウトプットを説明する上で非常に有望である。
最近の研究は、解釈可能性への実践的応用において重要な課題を浮き彫りにした。
本稿では,中間的なCoTテキストによる次トーケン予測を導出し,CoTが因果的負荷分散であることを保証する手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:36:58Z) - Unimodal Aggregation for CTC-based Speech Recognition [7.6112706449833505]
同じテキストトークンに属する特徴フレームをセグメント化し統合するために、UMA(unimodal aggregate)を提案する。
UMAはより優れた特徴表現を学習し、シーケンス長を短縮し、認識エラーと計算複雑性を低減させる。
論文 参考訳(メタデータ) (2023-09-15T04:34:40Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - A CTC Alignment-based Non-autoregressive Transformer for End-to-end
Automatic Speech Recognition [26.79184118279807]
CTCアライメントに基づく一段非自己回帰変換器(CASS-NAT)をエンドツーエンドASRに適用する。
自己回帰変換器(AT)への単語埋め込みは、エンコーダ出力から抽出されたトークンレベルの音響埋め込み(TAE)で代用される。
我々は,CASS-NAT が様々な ASR タスクにおいて AT に近い WER を持ち,24 倍の推論速度を提供することを発見した。
論文 参考訳(メタデータ) (2023-04-15T18:34:29Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。