論文の概要: Multilingual Email Zoning
- arxiv url: http://arxiv.org/abs/2102.00461v1
- Date: Sun, 31 Jan 2021 14:32:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 07:29:08.959926
- Title: Multilingual Email Zoning
- Title(参考訳): 多言語メールゾーニング
- Authors: Bruno Jardim and Ricardo Rei and Mariana S. C. Almeida
- Abstract要約: ポルトガル語,スペイン語,フランス語の635通のメールからなる多言語ベンチマークを提案する。
また、言語に依存しない文エンコーダに基づく最初の多言語メールセグメンテーションモデルであるOKAPIについても紹介する。
- 参考スコア(独自算出の注目度): 1.6703763758822257
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The segmentation of emails into functional zones (also dubbed email zoning)
is a relevant preprocessing step for most NLP tasks that deal with emails.
However, and despite the multilingual character of emails and their
applications, previous literature regarding email zoning corpora and systems
was developed essentially for English. In this paper, we analyse the existing
email zoning corpora and propose a new multilingual benchmark composed of 635
emails in Portuguese, Spanish and French. Moreover, we introduce OKAPI, the
first multilingual email segmentation model based on a language-agnostic
sentence encoder. Besides generalizing well for unseen languages, our model is
competitive with current English benchmarks, and reached new state-of-the-art
performances for domain adaptation tasks in English.
- Abstract(参考訳): メールを機能ゾーンに分割する(Eメール分割とも呼ばれる)ことは、メールを扱うほとんどのNLPタスクにおいて、関連する前処理ステップである。
しかし、電子メールの多言語的特徴とその応用にもかかわらず、メールゾーニングコーパスとシステムに関する以前の文献は基本的に英語のために開発された。
本稿では,既存のメール分割コーパスを分析し,ポルトガル語,スペイン語,フランス語の635個のメールからなる多言語ベンチマークを提案する。
さらに,言語に依存しない文エンコーダに基づく最初の多言語メールセグメンテーションモデルであるOKAPIを導入する。
未知の言語を一般化するのに加えて、我々のモデルは現在の英語のベンチマークと競合し、英語のドメイン適応タスクのための新しい最先端のパフォーマンスに到達した。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Lost in Translation, Found in Spans: Identifying Claims in Multilingual
Social Media [40.26888469822391]
クレームスパン識別(CSI)は、ファクトチェックパイプラインの重要なステップである。
ジャーナリストや人間のファクトチェッカーにとって重要な問題だが、いまだに過小評価されている問題である。
我々は、多くのソーシャルメディアプラットフォームから5つのインド語と英語で収集された7Kの現実世界のクレームからなる、新しいデータセットX-CLAIMを作成します。
論文 参考訳(メタデータ) (2023-10-27T15:28:12Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - The futility of STILTs for the classification of lexical borrowings in
Spanish [0.0]
STILTは、多言語モデルの直接微調整よりも改善していない。
少数の言語のサブセットでトレーニングされた多言語モデルは、多言語BERTよりも合理的に優れているが、与えられたデータセットに対する多言語RoBERTaほど良くない。
論文 参考訳(メタデータ) (2021-09-17T15:32:02Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。