論文の概要: Zero-Shot Joint Modeling of Multiple Spoken-Text-Style Conversion Tasks
using Switching Tokens
- arxiv url: http://arxiv.org/abs/2106.12131v1
- Date: Wed, 23 Jun 2021 02:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:25:13.365306
- Title: Zero-Shot Joint Modeling of Multiple Spoken-Text-Style Conversion Tasks
using Switching Tokens
- Title(参考訳): 切替トークンを用いた複数音声テキスト変換タスクのゼロショットジョイントモデリング
- Authors: Mana Ihori, Naoki Makishima, Tomohiro Tanaka, Akihiko Takashima, Shota
Orihashi, Ryo Masumura
- Abstract要約: 実際には、自動音声認識システムによって生成された文字は、多くの不一致を含むことが多く、句読点を含まないため、読めない。
本稿では,複数スタイルの変換モジュールを同時に実行可能な,新しい音声テキスト型変換手法を提案する。
ディフルエンシ除去と句読取回復の連成モデリング実験により,本手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 28.516240952627083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel spoken-text-style conversion method that
can simultaneously execute multiple style conversion modules such as
punctuation restoration and disfluency deletion without preparing matched
datasets. In practice, transcriptions generated by automatic speech recognition
systems are not highly readable because they often include many disfluencies
and do not include punctuation marks. To improve their readability, multiple
spoken-text-style conversion modules that individually model a single
conversion task are cascaded because matched datasets that simultaneously
handle multiple conversion tasks are often unavailable. However, the cascading
is unstable against the order of tasks because of the chain of conversion
errors. Besides, the computation cost of the cascading must be higher than the
single conversion. To execute multiple conversion tasks simultaneously without
preparing matched datasets, our key idea is to distinguish individual
conversion tasks using the on-off switch. In our proposed zero-shot joint
modeling, we switch the individual tasks using multiple switching tokens,
enabling us to utilize a zero-shot learning approach to executing simultaneous
conversions. Our experiments on joint modeling of disfluency deletion and
punctuation restoration demonstrate the effectiveness of our method.
- Abstract(参考訳): 本稿では,一致したデータセットを作成することなく,句読取復元や不規則削除といった複数のスタイル変換モジュールを同時に実行可能な,音声文型変換手法を提案する。
実際には、自動音声認識システムによって生成された文字は、多くの不一致を含むことが多く、句読点を含まないため、読めない。
可読性を向上させるために、単一の変換タスクを個別にモデル化する複数の音声テキストスタイルの変換モジュールがカスケードされる。
しかし、変換エラーの連鎖のため、カスケードはタスクの順序に対して不安定である。
加えて、カスケードの計算コストは単一変換よりも高くなければならない。
一致したデータセットを準備せずに複数の変換タスクを同時に実行するためには、オンオフスイッチを使用して個々の変換タスクを区別する。
提案したゼロショット共同モデリングでは,複数の切替トークンを用いて個々のタスクを切り替え,ゼロショット学習アプローチを用いて同時変換を行う。
ディフルエンシ除去と句読取回復の連成モデリング実験により,本手法の有効性を実証した。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Improving Zero-Shot Cross-Lingual Transfer via Progressive Code-Switching [35.27850496374157]
コードスイッチング(Code-switching)は、複数の言語の単語をソース言語テキストに混ぜるデータ拡張スキームである。
そこで本研究では,PCS(Progressive Code-Switching)手法を提案する。
実験により,10言語にまたがる3つのゼロショット言語間移動タスクについて,最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-06-19T09:06:24Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Bilingual Synchronization: Restoring Translational Relationships with
Editing Operations [2.0411082897313984]
我々は、最初のターゲットシーケンスを仮定するより一般的な設定を考え、ソースの有効な翻訳に変換する必要がある。
この結果から、一度微調整された1つの汎用的な編集ベースシステムは、これらのタスクに特化して訓練された専用システムと比較、あるいは性能に優れる可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-24T12:25:44Z) - Text Editing as Imitation Game [33.418628166176234]
動作クローンを用いた模倣ゲームとしてテキスト編集を再構成する。
我々は、アクショントークン間の依存関係を保持しながら、デコーディングを並列化するデュアルデコーダ構造を導入する。
私たちのモデルは、パフォーマンス、効率、堅牢性の点で、自己回帰ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2022-10-21T22:07:04Z) - Efficient Long Sequence Encoding via Synchronization [29.075962393432857]
階層符号化のための同期機構を提案する。
我々のアプローチはまずセグメント間でアンカートークンを識別し、元の入力シーケンスでの役割によってグループ化する。
我々のアプローチは、効率を保ちながらセグメント間のグローバル情報交換を改善することができる。
論文 参考訳(メタデータ) (2022-03-15T04:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。