論文の概要: Detecting Text Formality: A Study of Text Classification Approaches
- arxiv url: http://arxiv.org/abs/2204.08975v1
- Date: Tue, 19 Apr 2022 16:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-04-20 14:32:59.485010
- Title: Detecting Text Formality: A Study of Text Classification Approaches
- Title(参考訳): テキストの形式性の検出:テキスト分類手法の検討
- Authors: Daryna Dementieva, Ivan Trifinov, Andrey Likhachev and Alexander
Panchenko
- Abstract要約: 本研究は,現在の(そしてより古典的な)機械学習手法に基づく形式性検出手法に関する最初の体系的研究を提案する。
モノリンガル,マルチリンガル,クロスリンガルの3種類の実験を行った。
我々は,複数の言語に対する形式性検出モデルをリリースし,その結果を出力し,テストされた言語間機能を保有する。
- 参考スコア(独自算出の注目度): 71.51905606492376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Formality is an important characteristic of text documents. The automatic
detection of the formality level of a text is potentially beneficial for
various natural language processing tasks, such as retrieval of texts with a
desired formality level, integration in language learning and document editing
platforms, or evaluating the desired conversation tone by chatbots. Recently
two large-scale datasets were introduced for multiple languages featuring
formality annotation. However, they were primarily used for the training of
style transfer models. However, detection text formality on its own may also be
a useful application. This work proposes the first systematic study of
formality detection methods based on current (and more classic) machine
learning methods and delivers the best-performing models for public usage. We
conducted three types of experiments -- monolingual, multilingual, and
cross-lingual. The study shows the overcome of BiLSTM-based models over
transformer-based ones for the formality classification task. We release
formality detection models for several languages yielding state of the art
results and possessing tested cross-lingual capabilities.
- Abstract(参考訳): 文書の形式性は重要な特徴である。
テキストの形式性レベルの自動検出は、所望の形式性レベルを持つテキストの検索、言語学習と文書編集プラットフォームの統合、チャットボットによる所望の会話トーンの評価など、さまざまな自然言語処理タスクにおいて有益である。
最近、フォーマルなアノテーションを備えた複数の言語向けに、2つの大規模データセットが導入された。
しかし、主にスタイルトランスファーモデルのトレーニングに使用された。
しかし、それ自身で検出テキストの形式性は有用な応用であるかもしれない。
本研究は,現在(かつより古典的)な機械学習手法に基づく形式性検出法に関する最初の体系的研究を行い,公開利用に最適なモデルを提供する。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は, 形式分類タスクにおいて, トランスフォーマーモデルよりもBiLSTMモデルの方が優れていることを示す。
我々は,複数の言語を対象とした形式性検出モデルをリリースし,言語横断能力の検証を行った。
関連論文リスト
- Machine Translation to Control Formality Features in the Target Language [0.9208007322096532]
本研究では、機械学習が英語からフォーマルな言語への翻訳にどのように使われているかを検討する。
これは、形式性制御された設定でバイリンガルモデルを訓練し、その性能を事前訓練された多言語モデルと比較することで実現された。
予測されたマスク付きトークンと基底真理を比較することにより,公式な形式性精度(ACC)を評価する。
論文 参考訳(メタデータ) (2023-11-22T15:42:51Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Towards Best Practices for Training Multilingual Dense Retrieval Models [54.91016739123398]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。
本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文 参考訳(メタデータ) (2022-04-05T17:12:53Z) - GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation [9.501648136713694]
GPT-3のような大規模言語モデルは優れた数ショット学習者であり、自然なテキストプロンプトで制御できる。
本稿では,大規模言語モデルを用いて現実的なテキストサンプルを生成する新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T11:39:33Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Mono vs Multilingual Transformer-based Models: a Comparison across
Several Language Tasks [1.2691047660244335]
BERT (Bidirectional Representations from Transformers) と ALBERT (A Lite BERT) は、言語モデルの事前学習方法である。
ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にしています。
論文 参考訳(メタデータ) (2020-07-19T19:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。