論文の概要: Deep Diacritization: Efficient Hierarchical Recurrence for Improved
Arabic Diacritization
- arxiv url: http://arxiv.org/abs/2011.00538v1
- Date: Sun, 1 Nov 2020 15:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 22:53:45.884163
- Title: Deep Diacritization: Efficient Hierarchical Recurrence for Improved
Arabic Diacritization
- Title(参考訳): Deep Diacritization:アラビア語の発音改善のための効率的な階層的再帰
- Authors: Badr AlKhamissi, Muhammad N. ElNokrashy and Mohamed Gabr
- Abstract要約: 本稿では,Tashkeela Arabic diacritizationベンチマークにおいて,文字列のラベル付けのための新しいアーキテクチャを提案する。
コアは2段階の繰り返し階層であり、単語レベルと文字レベルを別々に操作する。
クロスレベルアテンションモジュールは、さらにこの2つを接続し、ネットワーク解釈性のための扉を開く。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel architecture for labelling character sequences that
achieves state-of-the-art results on the Tashkeela Arabic diacritization
benchmark. The core is a two-level recurrence hierarchy that operates on the
word and character levels separately---enabling faster training and inference
than comparable traditional models. A cross-level attention module further
connects the two, and opens the door for network interpretability. The task
module is a softmax classifier that enumerates valid combinations of
diacritics. This architecture can be extended with a recurrent decoder that
optionally accepts priors from partially diacritized text, which improves
results. We employ extra tricks such as sentence dropout and majority voting to
further boost the final result. Our best model achieves a WER of 5.34%,
outperforming the previous state-of-the-art with a 30.56% relative error
reduction.
- Abstract(参考訳): 本稿では,Tashkeela Arabic diacritizationベンチマークにおいて,文字列のラベル付けのための新しいアーキテクチャを提案する。
コアは単語と文字レベルで別々に動作する2段階の繰り返し階層で、従来のモデルよりも高速なトレーニングと推論を実現している。
クロスレベルアテンションモジュールは、さらにこの2つを接続し、ネットワーク解釈可能性の扉を開く。
taskモジュールは、ダイアクリティカルスの有効な組み合わせを列挙するsoftmax分類器である。
このアーキテクチャは、部分的にダイアライズされたテキストから事前を任意に受け入れ、結果を改善する再帰デコーダで拡張することができる。
我々は、最終結果をさらに高めるために、文のドロップアウトや多数決のような余分なトリックを用いる。
我々の最良モデルは5.34%のWERを達成し、30.56%の相対誤差削減で従来の最先端技術を上回った。
関連論文リスト
- An Ordinal Regression Framework for a Deep Learning Based Severity
Assessment for Chest Radiographs [50.285682227571996]
本稿では,順序回帰問題をモデル,対象関数,分類関数の3つの部分に分割する枠組みを提案する。
符号化の選択が性能に強く影響し,コーエンのカッパの選択重み付けに依存することを示す。
論文 参考訳(メタデータ) (2024-02-08T14:00:45Z) - Improving Grammar-based Sequence-to-Sequence Modeling with Decomposition
and Constraints [30.219318352970948]
より高速な推論のための2つの低ランクなニューラルネットワークQCFGについて検討する。
木階層とソースカバレッジに対する2つのソフト制約を導入します。
我々のモデルは、ほとんどの設定でバニラニューラルQCFGよりも優れています。
論文 参考訳(メタデータ) (2023-06-05T08:05:05Z) - Z-Code++: A Pre-trained Language Model Optimized for Abstractive
Summarization [108.09419317477986]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。
このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。
パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bである。
論文 参考訳(メタデータ) (2022-08-21T01:00:54Z) - Improving Top-K Decoding for Non-Autoregressive Semantic Parsing via
Intent Conditioning [11.307865386100993]
本稿では,デコーダに意図条件を導入する新しいNARセマンティクスを提案する。
最上位のインテントがパースの構文とセマンティクスを制御しているため、インテント条件付けによりビームサーチをよりよく制御できる。
対話型SPデータセットであるTOPとTOPv2で提案したNARを評価する。
論文 参考訳(メタデータ) (2022-04-14T04:06:39Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Hierarchical Conditional End-to-End ASR with CTC and Multi-Granular
Subword Units [19.668440671541546]
エンドツーエンドの自動音声認識では、単語レベルのシーケンスを認識するのに適した表現を暗黙的に学習することが期待される。
接続型時間分類(CTC)に基づく階層型条件付きモデルを提案する。
LibriSpeech-100h, 960h, TEDLium2の実験結果から, 提案モデルが標準CTCモデルよりも改良されていることが示された。
論文 参考訳(メタデータ) (2021-10-08T13:15:58Z) - Less Is More: Improved RNN-T Decoding Using Limited Label Context and
Path Merging [43.388004364072174]
本稿では,ラベルコンテキストの量がモデルの精度に及ぼす影響と復号処理の効率に与える影響について検討する。
我々は、全文ベースラインと比較して単語誤り率(WER)を低下させることなく、トレーニング中の繰り返しニューラルネットワークトランスデューサ(RNN-T)のコンテキストを従来の4つの単語ピースラベルに制限できることを見出しました。
論文 参考訳(メタデータ) (2020-12-12T07:39:21Z) - Hierarchical Attention Transformer Architecture For Syntactic Spell
Correction [1.0312968200748118]
従来の変圧器のマルチエンコーダと単一復号器のバリエーションを提案する。
CER, 単語(WER), 文(SER)の誤り率について, 0.11%, 0.32%, 0.69%の大幅な改善を報告した。
私たちのアーキテクチャも7.8倍高速で、次の最も正確なモデルに比べて1/3程度の大きさしかありません。
論文 参考訳(メタデータ) (2020-05-11T06:19:01Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。