論文の概要: Cross-domain Sentiment Classification in Spanish
- arxiv url: http://arxiv.org/abs/2303.08985v1
- Date: Wed, 15 Mar 2023 23:11:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:31:31.027199
- Title: Cross-domain Sentiment Classification in Spanish
- Title(参考訳): スペイン語におけるクロスドメイン感性分類
- Authors: Lautaro Estienne, Matias Vera, Leonardo Rey Vega
- Abstract要約: 商品レビューの大規模なデータベースで訓練された分類システムを用いて、異なるスペインドメインに一般化する能力について検討する。
結果として、これらの製品レビューをトレーニングすると、ドメイン間の一般化は実現可能であるが、非常に難しいことが示唆される。
- 参考スコア(独自算出の注目度): 18.563342761346608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment Classification is a fundamental task in the field of Natural
Language Processing, and has very important academic and commercial
applications. It aims to automatically predict the degree of sentiment present
in a text that contains opinions and subjectivity at some level, like product
and movie reviews, or tweets. This can be really difficult to accomplish, in
part, because different domains of text contains different words and
expressions. In addition, this difficulty increases when text is written in a
non-English language due to the lack of databases and resources. As a
consequence, several cross-domain and cross-language techniques are often
applied to this task in order to improve the results. In this work we perform a
study on the ability of a classification system trained with a large database
of product reviews to generalize to different Spanish domains. Reviews were
collected from the MercadoLibre website from seven Latin American countries,
allowing the creation of a large and balanced dataset. Results suggest that
generalization across domains is feasible though very challenging when trained
with these product reviews, and can be improved by pre-training and fine-tuning
the classification model.
- Abstract(参考訳): 感性分類は自然言語処理の分野における基本的な課題であり、非常に重要な学術的・商業的応用を持っている。
それは、製品や映画レビュー、ツイートなど、あるレベルで意見や主観性を含むテキストに存在する感情の程度を自動的に予測することを目的としている。
テキストの異なる領域には、異なる単語や表現が含まれているため、これを実現するのは非常に難しいのです。
さらに、データベースやリソースが不足しているため、英語以外の言語でテキストを書くと、この難しさが増す。
その結果、いくつかのクロスドメインおよびクロス言語技術がこの課題に応用され、結果が改善される。
本研究では,製品レビューの大規模なデータベースを用いて,スペインの異なる領域に一般化する分類システムの能力について検討する。
レビューは7つのラテンアメリカ諸国からmercadolibreのウェブサイトから集められ、大規模でバランスの取れたデータセットの作成を可能にした。
以上の結果から,これらの製品レビューをトレーニングする場合,ドメイン間の一般化は極めて困難であり,事前学習や分類モデルの微調整によって改善可能であることが示唆された。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Adapting Large Language Models to Domains via Reading Comprehension [86.24451681746676]
ドメイン固有コーパスの事前学習が大規模言語モデルに与える影響について検討する。
生のコーパスでのトレーニングはドメイン知識でモデルを養うが、問合せ能力を大幅に損なう。
生コーパスを可読テキストに変換する簡単な方法を提案する。
論文 参考訳(メタデータ) (2023-09-18T07:17:52Z) - A Curriculum Learning Approach for Multi-domain Text Classification
Using Keyword weight Ranking [17.71297141482757]
本稿では,キーワードウェイトランキングに基づくカリキュラム学習戦略を用いて,マルチドメインテキスト分類モデルの性能を向上させることを提案する。
AmazonのレビューとFDU-MTLデータセットの実験結果から,カリキュラム学習戦略は多分野テキスト分類モデルの性能を効果的に向上することが示された。
論文 参考訳(メタデータ) (2022-10-27T03:15:26Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - A Case Study and Qualitative Analysis of Simple Cross-Lingual Opinion
Mining [0.0]
本稿では,複数の言語をシミュレート可能な感情分析を用いた1つのトピックモデルの構築手法を提案する。
このモデルを,特定のドメイン,すなわち有機食品のユーザコメントに応用する。
安定・ドメイン関連トピックの比率が高く,トピックとその内容間の有意義な関係,ソーシャルメディア文書の解釈可能な表現が得られている。
論文 参考訳(メタデータ) (2021-11-03T14:49:50Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Bangla Text Classification using Transformers [2.3475904942266697]
テキスト分類はNLPの最も初期の問題の一つである。
本研究では,Banglaテキスト分類タスクのための多言語変換モデルを微調整する。
6つのベンチマークデータセットのアート結果の状態を把握し、前回の結果を5~29%の精度で改善する。
論文 参考訳(メタデータ) (2020-11-09T14:12:07Z) - Rank over Class: The Untapped Potential of Ranking in Natural Language
Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。
本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。
重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文 参考訳(メタデータ) (2020-09-10T22:18:57Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。