論文の概要: Ad Text Classification with Transformer-Based Natural Language
Processing Methods
- arxiv url: http://arxiv.org/abs/2106.10899v1
- Date: Mon, 21 Jun 2021 07:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:36:16.322999
- Title: Ad Text Classification with Transformer-Based Natural Language
Processing Methods
- Title(参考訳): トランスフォーマーに基づく自然言語処理手法を用いた広告テキスト分類
- Authors: Umut \"Ozdil, B\"u\c{s}ra Arslan, D. Emre Ta\c{s}ar, G\"ok\c{c}e
Polat,\c{S}\"ukr\"u Ozan
- Abstract要約: 私たちのデータセットは、12のセクターから約21,000のラベル付き広告テキストで構成されています。
トルコ語のための事前訓練されたBERTモデルを用いて得られた分類効率を詳細に示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, a natural language processing-based (NLP-based) method is
proposed for the sector-wise automatic classification of ad texts created on
online advertising platforms. Our data set consists of approximately 21,000
labeled advertising texts from 12 different sectors. In the study, the
Bidirectional Encoder Representations from Transformers (BERT) model, which is
a transformer-based language model that is recently used in fields such as text
classification in the natural language processing literature, was used. The
classification efficiencies obtained using a pre-trained BERT model for the
Turkish language are shown in detail.
- Abstract(参考訳): 本研究では,オンライン広告プラットフォーム上で生成した広告テキストをセクター的に自動分類するための自然言語処理(NLP)手法を提案する。
当社のデータセットは、12のセクターから約21,000のラベル付き広告テキストで構成されています。
本研究では,最近自然言語処理文献におけるテキスト分類などの分野で用いられているトランスフォーマに基づく言語モデルであるbertモデルからの双方向エンコーダ表現を用いた。
トルコ語のための事前訓練されたBERTモデルを用いて得られた分類効率を詳細に示す。
関連論文リスト
- Language Model Adaptation to Specialized Domains through Selective
Masking based on Genre and Topical Characteristics [4.9639158834745745]
本稿では、ジャンルや話題情報を活用した革新的なマスキング手法を導入し、言語モデルを専門ドメインにカスタマイズする。
本手法では,その重要度に基づいて単語を優先順位付けし,マスキング手順を導出するランキング処理を取り入れた。
法域内での継続事前学習を用いて行った実験は、英語のLegalGLUEベンチマークにおいて、我々のアプローチの有効性を裏付けている。
論文 参考訳(メタデータ) (2024-02-19T10:43:27Z) - Detecting out-of-distribution text using topological features of transformer-based language models [0.5735035463793009]
本稿では,トランスフォーマーに基づく言語モデルからの自己注意マップのトポロジ的特徴を利用して,入力テキストの分布外の検出を行う。
BERT に対する我々のアプローチを評価し,従来の OOD アプローチと比較した。
以上の結果から,本手法はCLS埋め込みよりも優れており,ドメイン内分布サンプルとドメイン外分布サンプルを区別するが,ほぼ同一あるいは同一のデータセットと競合することを示す。
論文 参考訳(メタデータ) (2023-11-22T02:04:35Z) - Retrieval and Generative Approaches for a Pregnancy Chatbot in Nepali
with Stemmed and Non-Stemmed Data : A Comparative Study [0.0]
ネパール語のデータセットのパフォーマンスは、それぞれのアプローチで分析されている。
BERTをベースとした事前学習モデルでは,スクラッチトランスフォーマーモデルではスクラッチデータの性能が良好である。
論文 参考訳(メタデータ) (2023-11-12T17:16:46Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。