論文の概要: Multi-Task Sequence Prediction For Tunisian Arabizi Multi-Level
Annotation
- arxiv url: http://arxiv.org/abs/2011.05152v3
- Date: Thu, 7 Jan 2021 09:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 07:23:15.718517
- Title: Multi-Task Sequence Prediction For Tunisian Arabizi Multi-Level
Annotation
- Title(参考訳): チュニジア・アラビジ多層アノテーションのマルチタスクシーケンス予測
- Authors: Elisa Gugliotta (1,2,3), Marco Dinarelli (2), Olivier Kraif (3) ((1)
Sapienza University of Rome, (2) Universit\'e Grenoble Alpes - Laboratoire
LIG (Getalp group), (3) Universit\'e Grenoble Alpes- Laboratoire LIDILEM)
- Abstract要約: このシステムは、アラビジ入力から始まるカスケードのすべてのアノテーションレベルを予測するために学習される。
我々は、チュニジアのアラビジコーパスに注釈を付けるためにこのシステムをどのように利用したかを示し、その後手作業で修正した。
本システムはFairseqフレームワーク向けに開発されており,他のシーケンス予測問題に対して高速かつ容易に利用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we propose a multi-task sequence prediction system, based on
recurrent neural networks and used to annotate on multiple levels an Arabizi
Tunisian corpus. The annotation performed are text classification,
tokenization, PoS tagging and encoding of Tunisian Arabizi into CODA* Arabic
orthography. The system is learned to predict all the annotation levels in
cascade, starting from Arabizi input. We evaluate the system on the TIGER
German corpus, suitably converting data to have a multi-task problem, in order
to show the effectiveness of our neural architecture. We show also how we used
the system in order to annotate a Tunisian Arabizi corpus, which has been
afterwards manually corrected and used to further evaluate sequence models on
Tunisian data. Our system is developed for the Fairseq framework, which allows
for a fast and easy use for any other sequence prediction problem.
- Abstract(参考訳): 本稿では,繰り返しニューラルネットワークに基づくマルチタスクシーケンス予測システムを提案し,アラビジチュニジアコーパスを複数レベルにアノテートする手法を提案する。
アノテーションは、テキスト分類、トークン化、PoSタグ付け、チュニジア・アラビジのCODA*アラビア正書法への符号化である。
このシステムは、アラビジ入力から始まるカスケードのすべてのアノテーションレベルを予測するために学習される。
我々はTIGERゲルマンコーパスのシステム評価を行い、ニューラルネットワークの有効性を示すため、マルチタスク問題のあるデータを適切に変換する。
また,その後手作業で修正され,チュニジアデータのシーケンスモデルをさらに評価するために用いられた,チュニジア・アラビジコーパスの注釈付けにシステムを用いた方法を示す。
本システムはFairseqフレームワーク向けに開発されており,他のシーケンス予測問題に対して高速かつ容易に利用できる。
関連論文リスト
- Normalized Orthography for Tunisian Arabic [1.606071974243323]
チュニジア・アラビア(英語: Tunisian Arabic、ISO 693-3: aeb)は、チュニジア原産で、様々な歴史的影響を受け、アラビア語に由来する。
本研究は「チュニジア・アラビアのノーマライズド・オルソグラフィー(NOTA)」を紹介する。
論文 参考訳(メタデータ) (2024-02-20T11:52:29Z) - Leveraging Data Collection and Unsupervised Learning for Code-switched
Tunisian Arabic Automatic Speech Recognition [4.67385883375784]
本稿では,チュニジア方言に着目した自動音声認識(ASR)課題に焦点を当てた。
まず、テキストデータと音声データを収集し、場合によっては注釈を付ける。
第2に、チュニジアのさまざまなテストセットに最先端をプッシュするために、セルフスーパービジョン、セミスーパービジョン、および数ショットのコードスイッチングアプローチについて検討する。
第3に,従来の綴りの欠如を考慮し,テスト基準のスペルから発生する騒音を避けるために,転写文の人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-20T13:56:27Z) - Understanding and Improving Sequence-to-Sequence Pretraining for Neural
Machine Translation [48.50842995206353]
本研究は,Seq2Seqプレトレーニングと従来のエンコーダによるNMTの事前トレーニングとの主な違いである,共同事前学習デコーダの影響について検討する。
我々は、ドメインと目的の相違を緩和するために、ドメイン内の事前訓練と入力適応という、シンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2022-03-16T07:36:28Z) - Multi-Dialect Arabic Speech Recognition [0.0]
本稿では,アラビア語に対する多言語自動音声認識の設計と開発について述べる。
ディープニューラルネットワークは、シーケンシャルなデータ問題を解決する効果的なツールになりつつある。
提案方式は14%の誤差率を達成し, 従来のシステムより優れていた。
論文 参考訳(メタデータ) (2021-12-25T20:55:57Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Efficient Measuring of Readability to Improve Documents Accessibility
for Arabic Language Learners [0.0]
この手法は、テキストの読みと理解の難易度を区別する機械学習の分類法に基づいている。
いくつかのモデルは、オンラインアラビアのウェブサイトから採掘された巨大なコーパスで訓練され、手動で注釈付けされた。
TF-IDFベクトルは単語ベースのユニグラムとビッグラムの組み合わせで訓練され、全体的な精度は4種類の複雑性に対して87.14%であった。
論文 参考訳(メタデータ) (2021-09-09T10:05:38Z) - CIM: Class-Irrelevant Mapping for Few-Shot Classification [58.02773394658623]
FSC(Few-shot Classification)は近年のホットな問題の一つである。
事前訓練されたFEMを評価する方法は、FSCコミュニティにおいて最も重要な焦点である。
CIM(Class-Irrelevant Mapping)と呼ばれるシンプルなフレキシブルな手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T03:26:24Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Investigation of learning abilities on linguistic features in
sequence-to-sequence text-to-speech synthesis [48.151894340550385]
ニューラルシークエンス・ツー・シークエンス・テキスト・トゥ・音声合成(TTS)は、テキストや音素のような単純な言語的特徴から直接高品質な音声を生成することができる。
ニューラルシークエンス・ツー・シークエンス TTS が日本語と英語でどのように機能するかを考察する。
論文 参考訳(メタデータ) (2020-05-20T23:26:14Z) - TArC: Incrementally and Semi-Automatically Collecting a Tunisian Arabish
Corpus [3.8580784887142774]
本稿では,第1次チュニジア・アラブ人コーパス(TArC)の構成過程について述べる。
アラビア語(アラビア語: Arabizi)は、アラビア語の方言をラテン文字とアリスモグラフ(文字として使われる数字)で自発的に符号化したものである。
論文 参考訳(メタデータ) (2020-03-20T22:29:42Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。