論文の概要: Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech
Translation
- arxiv url: http://arxiv.org/abs/2204.09595v2
- Date: Thu, 21 Apr 2022 03:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-24 16:42:25.648774
- Title: Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech
Translation
- Title(参考訳): 適応型同時音声翻訳のための連続統合・発火の検討
- Authors: Chih-Chiang Chang, Hung-yi Lee
- Abstract要約: SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。
本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。
単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
- 参考スコア(独自算出の注目度): 75.86581380817464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous speech translation (SimulST) is a challenging task aiming to
translate streaming speech before the complete input is observed. A SimulST
system generally includes two components: the pre-decision that aggregates the
speech information and the policy that decides to read or write. While recent
works had proposed various strategies to improve the pre-decision, they mainly
adopt the fixed wait-k policy, leaving the adaptive policies rarely explored.
This paper proposes to model the adaptive policy by adapting the Continuous
Integrate-and-Fire (CIF). Compared with monotonic multihead attention (MMA),
our method has the advantage of simpler computation, superior quality at low
latency, and better generalization to long utterances. We conduct experiments
on the MuST-C V2 dataset and show the effectiveness of our approach.
- Abstract(参考訳): 同時音声翻訳(SimulST)は、完全な入力が観測される前にストリーミング音声を翻訳することを目的とした課題である。
SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。
最近の研究では、事前決定を改善するための様々な戦略を提案したが、それらは主に固定されたwait-kポリシーを採用しており、適応的な政策はほとんど検討されなかった。
本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。
単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
我々は MuST-C V2 データセット上で実験を行い,本手法の有効性を示す。
関連論文リスト
- Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation [49.43094200366251]
本稿では,タスク分解のセマンティック理解を生かした,未確認タスクへの数発適応のための新しいアプローチを提案する。
我々の手法であるPALO(Policy Adaptation via Language Optimization)は,タスクのいくつかの実演と,提案する言語分解とを組み合わせる。
PALOは、実世界の長期・多層的なタスクを一貫して完了することができ、事前訓練されたジェネラリスト政策の状況よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T03:03:35Z) - Stochastic Dynamic Power Dispatch with High Generalization and Few-Shot
Adaption via Contextual Meta Graph Reinforcement Learning [7.251065697936476]
高度に一般化された多段階最適ディスパッチポリシのためのコンテキストメタグラフ強化学習(Meta-GRL)を提案する。
異なるディスパッチシナリオのコンテキストを符号化し,下位ポリシー学習者がコンテキスト特定ディスパッチポリシーを学習している間に,ディスパッチタスク識別の方法を学ぶために,上位メタラーナを提案する。
十分なオフライン学習の後、このアプローチはメタラーナーによって生成された仮説の判断をわずかに上乗せするだけで、目に見えない、未定義のシナリオに迅速に適応することができる。
論文 参考訳(メタデータ) (2024-01-19T13:58:46Z) - Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - Data-Driven Adaptive Simultaneous Machine Translation [51.01779863078624]
適応型SimulMTのための新しい,効率的なトレーニング手法を提案する。
本手法は,翻訳の質やレイテンシという点で,全ての強靭なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-04-27T02:40:21Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Unsupervised Cross-lingual Adaptation for Sequence Tagging and Beyond [58.80417796087894]
多言語事前訓練言語モデル(mPTLM)による言語間適応は、主にゼロショットアプローチと翻訳に基づくアプローチの2行からなる。
本稿では、ゼロショットアプローチと翻訳に基づくアプローチを統合し、適応性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-23T13:47:01Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z) - Simultaneous Translation Policies: From Fixed to Adaptive [29.699912674525056]
我々は,一組の固定ポリシーの簡単な構成で適応ポリシーを実現するアルゴリズムを設計する。
我々のアルゴリズムは、同じレイテンシで最大4つのBLEUポイントを上回ります。
グレディモードでは、BLEUのフル文翻訳のスコアを上回ります。
論文 参考訳(メタデータ) (2020-04-27T20:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。