論文の概要: Detecting Text Formality: A Study of Text Classification Approaches
- arxiv url: http://arxiv.org/abs/2204.08975v2
- Date: Fri, 8 Sep 2023 09:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 18:57:20.992216
- Title: Detecting Text Formality: A Study of Text Classification Approaches
- Title(参考訳): テキストの形式性の検出:テキスト分類手法の検討
- Authors: Daryna Dementieva, Nikolay Babakov and Alexander Panchenko
- Abstract要約: 本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
- 参考スコア(独自算出の注目度): 78.11745751651708
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Formality is one of the important characteristics of text documents. The
automatic detection of the formality level of a text is potentially beneficial
for various natural language processing tasks. Before, two large-scale datasets
were introduced for multiple languages featuring formality annotation -- GYAFC
and X-FORMAL. However, they were primarily used for the training of style
transfer models. At the same time, the detection of text formality on its own
may also be a useful application. This work proposes the first to our knowledge
systematic study of formality detection methods based on statistical,
neural-based, and Transformer-based machine learning methods and delivers the
best-performing models for public usage. We conducted three types of
experiments -- monolingual, multilingual, and cross-lingual. The study shows
the overcome of Char BiLSTM model over Transformer-based ones for the
monolingual and multilingual formality classification task, while
Transformer-based classifiers are more stable to cross-lingual knowledge
transfer.
- Abstract(参考訳): 形式性は文書の重要な特徴の1つである。
テキストの形式レベルの自動検出は、様々な自然言語処理タスクに潜在的に有益である。
これまで、2つの大規模データセットがフォーマリティアノテーション(gyafcとx-formal)を備えた複数の言語向けに導入された。
しかし、主にスタイルトランスファーモデルのトレーニングに使用された。
同時に、単独でテキストの形式を検出することも有用かもしれない。
本研究は,統計的,ニューラルベース,トランスフォーマーに基づく機械学習手法に基づく形式性検出手法の体系的研究を初めて提案し,公共利用における最高の性能モデルを提供する。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,トランスフォーマーをベースとした一言語・多言語形式分類タスクに対してChar BiLSTMモデルを克服する一方で,トランスフォーマーに基づく分類器は言語間知識伝達に対してより安定であることを示す。
関連論文リスト
- Machine Translation to Control Formality Features in the Target Language [0.9208007322096532]
本研究では、機械学習が英語からフォーマルな言語への翻訳にどのように使われているかを検討する。
これは、形式性制御された設定でバイリンガルモデルを訓練し、その性能を事前訓練された多言語モデルと比較することで実現された。
予測されたマスク付きトークンと基底真理を比較することにより,公式な形式性精度(ACC)を評価する。
論文 参考訳(メタデータ) (2023-11-22T15:42:51Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Towards Best Practices for Training Multilingual Dense Retrieval Models [54.91016739123398]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。
本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文 参考訳(メタデータ) (2022-04-05T17:12:53Z) - GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation [9.501648136713694]
GPT-3のような大規模言語モデルは優れた数ショット学習者であり、自然なテキストプロンプトで制御できる。
本稿では,大規模言語モデルを用いて現実的なテキストサンプルを生成する新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T11:39:33Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Mono vs Multilingual Transformer-based Models: a Comparison across
Several Language Tasks [1.2691047660244335]
BERT (Bidirectional Representations from Transformers) と ALBERT (A Lite BERT) は、言語モデルの事前学習方法である。
ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にしています。
論文 参考訳(メタデータ) (2020-07-19T19:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。