Fugu-MT 論文翻訳(概要): Multilingual Email Zoning

論文の概要: Multilingual Email Zoning

arxiv url: http://arxiv.org/abs/2102.00461v1
Date: Sun, 31 Jan 2021 14:32:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-03 07:29:08.959926
Title: Multilingual Email Zoning
Title（参考訳）: 多言語メールゾーニング
Authors: Bruno Jardim and Ricardo Rei and Mariana S. C. Almeida
Abstract要約: ポルトガル語,スペイン語,フランス語の635通のメールからなる多言語ベンチマークを提案する。また、言語に依存しない文エンコーダに基づく最初の多言語メールセグメンテーションモデルであるOKAPIについても紹介する。
参考スコア（独自算出の注目度）: 1.6703763758822257
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: The segmentation of emails into functional zones (also dubbed email zoning) is a relevant preprocessing step for most NLP tasks that deal with emails. However, and despite the multilingual character of emails and their applications, previous literature regarding email zoning corpora and systems was developed essentially for English. In this paper, we analyse the existing email zoning corpora and propose a new multilingual benchmark composed of 635 emails in Portuguese, Spanish and French. Moreover, we introduce OKAPI, the first multilingual email segmentation model based on a language-agnostic sentence encoder. Besides generalizing well for unseen languages, our model is competitive with current English benchmarks, and reached new state-of-the-art performances for domain adaptation tasks in English.
Abstract（参考訳）: メールを機能ゾーンに分割する(Eメール分割とも呼ばれる)ことは、メールを扱うほとんどのNLPタスクにおいて、関連する前処理ステップである。しかし、電子メールの多言語的特徴とその応用にもかかわらず、メールゾーニングコーパスとシステムに関する以前の文献は基本的に英語のために開発された。本稿では,既存のメール分割コーパスを分析し,ポルトガル語,スペイン語,フランス語の635個のメールからなる多言語ベンチマークを提案する。さらに,言語に依存しない文エンコーダに基づく最初の多言語メールセグメンテーションモデルであるOKAPIを導入する。未知の言語を一般化するのに加えて、我々のモデルは現在の英語のベンチマークと競合し、英語のドメイン適応タスクのための新しい最先端のパフォーマンスに到達した。

関連論文リスト

HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models [25.953042884928006]
約200の言語に対して、オープンで、非常に大きく、高品質で、リッチな注釈付きテキストデータセットを提供するためのイニシアティブを提示します。 30兆のトークンで、これはおそらくLLM事前学習データの多言語収集としては最大である。 57種類のモノリンガルエンコーダ-デコーダモデルと、少数のモノリンガルGPT様参照モデルを訓練し、評価する。
論文参考訳（メタデータ） (2025-11-02T20:16:38Z)
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。 LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。 5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-01-01T15:43:07Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
Lost in Translation, Found in Spans: Identifying Claims in Multilingual Social Media [40.26888469822391]
クレームスパン識別(CSI)は、ファクトチェックパイプラインの重要なステップである。ジャーナリストや人間のファクトチェッカーにとって重要な問題だが、いまだに過小評価されている問題である。我々は、多くのソーシャルメディアプラットフォームから5つのインド語と英語で収集された7Kの現実世界のクレームからなる、新しいデータセットX-CLAIMを作成します。
論文参考訳（メタデータ） (2023-10-27T15:28:12Z)
Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文参考訳（メタデータ） (2023-06-13T08:08:08Z)
A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文参考訳（メタデータ） (2023-05-29T11:54:50Z)
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文参考訳（メタデータ） (2023-04-03T18:46:01Z)
Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文参考訳（メタデータ） (2022-05-20T18:35:38Z)
The futility of STILTs for the classification of lexical borrowings in Spanish [0.0]
STILTは、多言語モデルの直接微調整よりも改善していない。少数の言語のサブセットでトレーニングされた多言語モデルは、多言語BERTよりも合理的に優れているが、与えられたデータセットに対する多言語RoBERTaほど良くない。
論文参考訳（メタデータ） (2021-09-17T15:32:02Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。