論文の概要: Optimal Strategies to Perform Multilingual Analysis of Social Content
for a Novel Dataset in the Tourism Domain
- arxiv url: http://arxiv.org/abs/2311.14727v1
- Date: Mon, 20 Nov 2023 13:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-03 13:41:23.594630
- Title: Optimal Strategies to Perform Multilingual Analysis of Social Content
for a Novel Dataset in the Tourism Domain
- Title(参考訳): 観光分野における新しいデータセットのためのソーシャルコンテンツの多言語分析のための最適戦略
- Authors: Maxime Masson, Rodrigo Agerri, Christian Sallaberry, Marie-Noelle
Bessagnet, Annig Le Parc Lacayrelle and Philippe Roose
- Abstract要約: 大規模な多言語言語モデル上で、少数ショット、パターン探索、微調整の機械学習技術を評価する。
我々は,3つの共通NLPタスクにおいて,優れた性能を実現するのに必要な注釈付きサンプルの量を確認することを目的としている。
この作業は、NLPを新しいドメイン固有のアプリケーションに適用する方法を舗装する。
- 参考スコア(独自算出の注目度): 5.848712585343905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rising influence of social media platforms in various domains, including
tourism, has highlighted the growing need for efficient and automated natural
language processing (NLP) approaches to take advantage of this valuable
resource. However, the transformation of multilingual, unstructured, and
informal texts into structured knowledge often poses significant challenges.
In this work, we evaluate and compare few-shot, pattern-exploiting and
fine-tuning machine learning techniques on large multilingual language models
(LLMs) to establish the best strategy to address the lack of annotated data for
3 common NLP tasks in the tourism domain: (1) Sentiment Analysis, (2) Named
Entity Recognition, and (3) Fine-grained Thematic Concept Extraction (linked to
a semantic resource). Furthermore, we aim to ascertain the quantity of
annotated examples required to achieve good performance in those 3 tasks,
addressing a common challenge encountered by NLP researchers in the
construction of domain-specific datasets.
Extensive experimentation on a newly collected and annotated multilingual
(French, English, and Spanish) dataset composed of tourism-related tweets shows
that current few-shot learning techniques allow us to obtain competitive
results for all three tasks with very little annotation data: 5 tweets per
label (15 in total) for Sentiment Analysis, 10% of the tweets for location
detection (around 160) and 13% (200 approx.) of the tweets annotated with
thematic concepts, a highly fine-grained sequence labeling task based on an
inventory of 315 classes.
This comparative analysis, grounded in a novel dataset, paves the way for
applying NLP to new domain-specific applications, reducing the need for manual
annotations and circumventing the complexities of rule-based, ad hoc solutions.
- Abstract(参考訳): 観光を含む各分野におけるソーシャルメディアプラットフォームの影響の高まりは、この貴重な資源を活用するために、効率的かつ自動化された自然言語処理(NLP)アプローチの必要性の高まりを浮き彫りにした。
しかし、多言語、非構造的、非公式なテキストの構造化知識への変換は、しばしば重大な課題を引き起こす。
本研究では,観光分野における3つの共通nlpタスクに対する注釈付きデータの欠如に対して,(1)感情分析,(2)名前付きエンティティ認識,(3)きめ細かなテーマ概念抽出(意味資源とリンク)という,最善の戦略を確立するため,多言語言語モデル(llms)上でのマイナショット,パターン展開,微調整の機械学習手法を評価し,比較する。
さらに,NLP研究者がドメイン固有のデータセットの構築において直面する共通の課題に対処するため,これらの3つのタスクにおいて優れたパフォーマンスを達成するのに必要な注釈付きサンプルの量を確認することを目的とする。
Extensive experimentation on a newly collected and annotated multilingual (French, English, and Spanish) dataset composed of tourism-related tweets shows that current few-shot learning techniques allow us to obtain competitive results for all three tasks with very little annotation data: 5 tweets per label (15 in total) for Sentiment Analysis, 10% of the tweets for location detection (around 160) and 13% (200 approx.) of the tweets annotated with thematic concepts, a highly fine-grained sequence labeling task based on an inventory of 315 classes.
この比較分析は、新しいデータセットに基づいて、NLPを新しいドメイン固有のアプリケーションに適用する方法を舗装し、手動アノテーションの必要性を減らし、ルールベースのアドホックソリューションの複雑さを回避する。
関連論文リスト
- SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - Adapting Prompt for Few-shot Table-to-Text Generation [24.440701406542928]
AdaPTGen(Adapt-Prompt-to-Generate)という新しいフレームワークを提案する。
ドメイン固有の知識のプロンプトテンプレートをモデルに適応させる。
我々のモデルは流速と精度の両面で優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-02-24T05:48:53Z) - Exploring the State-of-the-Art Language Modeling Methods and Data
Augmentation Techniques for Multilingual Clause-Level Morphology [3.8498574327875947]
共有タスクの3つの部分 – 反射,再帰,分析 – について検討する。
データ拡張と組み合わせたトランスフォーマーモデルと、モルフォロジー解析のための最先端の言語モデリング技術を利用する2つのアプローチを主に検討する。
提案手法は,3つのタスクのそれぞれにおいて第1位となり,mT5ベースラインよりも89%,リフレクション80%,分析12%に優れていた。
論文 参考訳(メタデータ) (2022-11-03T11:53:39Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Analysis and Evaluation of Language Models for Word Sense Disambiguation [18.001457030065712]
トランスフォーマーベースの言語モデルは、嵐によってNLPの多くの分野を取り込んでいる。
BERTは、ワードセンス毎に限られた数のサンプルが利用できる場合でも、高いレベルの感覚の区別を正確に捉えることができる。
BERTとその派生種は既存の評価ベンチマークの大部分を支配している。
論文 参考訳(メタデータ) (2020-08-26T15:07:07Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z) - A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase
Detection in Short Texts [1.6758573326215689]
短文のパラフレーズ検出を改善するために,データ拡張戦略とマルチカスケードモデルを提案する。
私たちのモデルは広くて深く、クリーンでノイズの多い短いテキストにまたがってより堅牢性を提供します。
論文 参考訳(メタデータ) (2019-12-27T12:10:10Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。