論文の概要: Optimal Strategies to Perform Multilingual Analysis of Social Content
for a Novel Dataset in the Tourism Domain
- arxiv url: http://arxiv.org/abs/2311.14727v1
- Date: Mon, 20 Nov 2023 13:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-03 13:41:23.594630
- Title: Optimal Strategies to Perform Multilingual Analysis of Social Content
for a Novel Dataset in the Tourism Domain
- Title(参考訳): 観光分野における新しいデータセットのためのソーシャルコンテンツの多言語分析のための最適戦略
- Authors: Maxime Masson, Rodrigo Agerri, Christian Sallaberry, Marie-Noelle
Bessagnet, Annig Le Parc Lacayrelle and Philippe Roose
- Abstract要約: 大規模な多言語言語モデル上で、少数ショット、パターン探索、微調整の機械学習技術を評価する。
我々は,3つの共通NLPタスクにおいて,優れた性能を実現するのに必要な注釈付きサンプルの量を確認することを目的としている。
この作業は、NLPを新しいドメイン固有のアプリケーションに適用する方法を舗装する。
- 参考スコア(独自算出の注目度): 5.848712585343905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rising influence of social media platforms in various domains, including
tourism, has highlighted the growing need for efficient and automated natural
language processing (NLP) approaches to take advantage of this valuable
resource. However, the transformation of multilingual, unstructured, and
informal texts into structured knowledge often poses significant challenges.
In this work, we evaluate and compare few-shot, pattern-exploiting and
fine-tuning machine learning techniques on large multilingual language models
(LLMs) to establish the best strategy to address the lack of annotated data for
3 common NLP tasks in the tourism domain: (1) Sentiment Analysis, (2) Named
Entity Recognition, and (3) Fine-grained Thematic Concept Extraction (linked to
a semantic resource). Furthermore, we aim to ascertain the quantity of
annotated examples required to achieve good performance in those 3 tasks,
addressing a common challenge encountered by NLP researchers in the
construction of domain-specific datasets.
Extensive experimentation on a newly collected and annotated multilingual
(French, English, and Spanish) dataset composed of tourism-related tweets shows
that current few-shot learning techniques allow us to obtain competitive
results for all three tasks with very little annotation data: 5 tweets per
label (15 in total) for Sentiment Analysis, 10% of the tweets for location
detection (around 160) and 13% (200 approx.) of the tweets annotated with
thematic concepts, a highly fine-grained sequence labeling task based on an
inventory of 315 classes.
This comparative analysis, grounded in a novel dataset, paves the way for
applying NLP to new domain-specific applications, reducing the need for manual
annotations and circumventing the complexities of rule-based, ad hoc solutions.
- Abstract(参考訳): 観光を含む各分野におけるソーシャルメディアプラットフォームの影響の高まりは、この貴重な資源を活用するために、効率的かつ自動化された自然言語処理(NLP)アプローチの必要性の高まりを浮き彫りにした。
しかし、多言語、非構造的、非公式なテキストの構造化知識への変換は、しばしば重大な課題を引き起こす。
本研究では,観光分野における3つの共通nlpタスクに対する注釈付きデータの欠如に対して,(1)感情分析,(2)名前付きエンティティ認識,(3)きめ細かなテーマ概念抽出(意味資源とリンク)という,最善の戦略を確立するため,多言語言語モデル(llms)上でのマイナショット,パターン展開,微調整の機械学習手法を評価し,比較する。
さらに,NLP研究者がドメイン固有のデータセットの構築において直面する共通の課題に対処するため,これらの3つのタスクにおいて優れたパフォーマンスを達成するのに必要な注釈付きサンプルの量を確認することを目的とする。
Extensive experimentation on a newly collected and annotated multilingual (French, English, and Spanish) dataset composed of tourism-related tweets shows that current few-shot learning techniques allow us to obtain competitive results for all three tasks with very little annotation data: 5 tweets per label (15 in total) for Sentiment Analysis, 10% of the tweets for location detection (around 160) and 13% (200 approx.) of the tweets annotated with thematic concepts, a highly fine-grained sequence labeling task based on an inventory of 315 classes.
この比較分析は、新しいデータセットに基づいて、NLPを新しいドメイン固有のアプリケーションに適用する方法を舗装し、手動アノテーションの必要性を減らし、ルールベースのアドホックソリューションの複雑さを回避する。
関連論文リスト
- Autoencoder-Based Framework to Capture Vocabulary Quality in NLP [2.41710192205034]
語彙の豊かさ、多様性、複雑さのプロキシとしてニューラルネットワーク容量を使用するオートエンコーダベースのフレームワークを導入する。
本研究のアプローチは2つの異なるデータセットであるDIFrauDデータセットと,さまざまな言語,ジャンル,歴史期間を表すProject Gutenbergデータセットに対して検証を行った。
論文 参考訳(メタデータ) (2025-02-28T21:45:28Z) - USTCCTSU at SemEval-2024 Task 1: Reducing Anisotropy for Cross-lingual Semantic Textual Relatedness Task [17.905282052666333]
言語間セマンティックテキスト関連性タスクは,言語間コミュニケーションやテキスト理解における課題に対処する重要な研究課題である。
これは、機械翻訳、多言語情報検索、言語間テキスト理解といった下流タスクに不可欠な、異なる言語間のセマンティックな接続を確立するのに役立つ。
当社のアプローチでは、スペインで2位、インドネシアで3位、そしてトップ10の複数のエントリーが、コンペティションのトラックCで行われます。
論文 参考訳(メタデータ) (2024-11-28T08:40:14Z) - Evaluating and explaining training strategies for zero-shot cross-lingual news sentiment analysis [8.770572911942635]
いくつかの低リソース言語で新しい評価データセットを導入する。
我々は、機械翻訳の使用を含む、様々なアプローチを実験する。
言語間の相似性は言語間移動の成功を予測するのに十分ではないことを示す。
論文 参考訳(メタデータ) (2024-09-30T07:59:41Z) - Zero-shot prompt-based classification: topic labeling in times of foundation models in German Tweets [1.734165485480267]
そこで,本論文では,文章ガイドラインを用いてテキストを自動的に注釈付けするツールについて,トレーニングサンプルを提供することなく提案する。
提案手法は細調整されたBERTに匹敵するが,アノテートしたトレーニングデータはない。
本研究は,NLPランドスケープにおける進行中のパラダイムシフト,すなわち下流タスクの統一と事前ラベル付きトレーニングデータの必要性の排除を強調した。
論文 参考訳(メタデータ) (2024-06-26T10:44:02Z) - Specifying Genericity through Inclusiveness and Abstractness Continuous Scales [1.024113475677323]
本稿では,自然言語における名詞句(NP)の詳細なモデリングのための新しいアノテーションフレームワークを提案する。
このフレームワークはシンプルで直感的に設計されており、専門家でないアノテータにもアクセスでき、クラウドソースのタスクに適している。
論文 参考訳(メタデータ) (2024-03-22T15:21:07Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Adapting Knowledge for Few-shot Table-to-Text Generation [35.59842534346997]
AKG(Adapt-Knowledge-to-Generate)という新しいフレームワークを提案する。
AKGはラベルのないドメイン固有の知識をモデルに適応させ、少なくとも3つの利点をもたらす。
本モデルでは,人間の評価と自動評価により,流速,精度の両面において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-24T05:48:53Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Analysis and Evaluation of Language Models for Word Sense Disambiguation [18.001457030065712]
トランスフォーマーベースの言語モデルは、嵐によってNLPの多くの分野を取り込んでいる。
BERTは、ワードセンス毎に限られた数のサンプルが利用できる場合でも、高いレベルの感覚の区別を正確に捉えることができる。
BERTとその派生種は既存の評価ベンチマークの大部分を支配している。
論文 参考訳(メタデータ) (2020-08-26T15:07:07Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z) - Learning Cross-Context Entity Representations from Text [9.981223356176496]
本稿では,テキストコンテキストからエンティティのコンテキスト独立表現を学習するための補間タスクの利用について検討する。
ニューラルネットワークの大規模トレーニングによって,高品質な実体表現を学習できることが示される。
我々のグローバルな実体表現は、スコットランドのサッカー選手のようなきめ細かい型カテゴリをエンコードし、トリビアの質問に答えることができます。
論文 参考訳(メタデータ) (2020-01-11T15:30:56Z) - A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase
Detection in Short Texts [1.6758573326215689]
短文のパラフレーズ検出を改善するために,データ拡張戦略とマルチカスケードモデルを提案する。
私たちのモデルは広くて深く、クリーンでノイズの多い短いテキストにまたがってより堅牢性を提供します。
論文 参考訳(メタデータ) (2019-12-27T12:10:10Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。