論文の概要: pysentimiento: A Python Toolkit for Opinion Mining and Social NLP tasks
- arxiv url: http://arxiv.org/abs/2106.09462v2
- Date: Thu, 26 Oct 2023 03:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 07:13:09.596300
- Title: pysentimiento: A Python Toolkit for Opinion Mining and Social NLP tasks
- Title(参考訳): pysentimiento: 意見マイニングとソーシャルNLPタスクのためのPythonツールキット
- Authors: Juan Manuel P\'erez, Mariela Rajngewerc, Juan Carlos Giudici, Dami\'an
A. Furman, Franco Luque, Laura Alonso Alemany, Mar\'ia Vanina Mart\'inez
- Abstract要約: pysentimientoは意見マイニングやその他のソーシャルNLPタスク用に設計されたPythonツールキットである。
このオープンソースライブラリは、簡単に使えるPythonライブラリで、スペイン語、英語、イタリア語、ポルトガル語の最先端モデルを提供する。
各種タスク,言語,データセットにまたがる事前学習言語モデルの総合的な性能評価を行う。
- 参考スコア(独自算出の注目度): 2.424469485586727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the extraction of opinions and information from
user-generated text has attracted a lot of interest, largely due to the
unprecedented volume of content in Social Media. However, social researchers
face some issues in adopting cutting-edge tools for these tasks, as they are
usually behind commercial APIs, unavailable for other languages than English,
or very complex to use for non-experts. To address these issues, we present
pysentimiento, a comprehensive multilingual Python toolkit designed for opinion
mining and other Social NLP tasks. This open-source library brings
state-of-the-art models for Spanish, English, Italian, and Portuguese in an
easy-to-use Python library, allowing researchers to leverage these techniques.
We present a comprehensive assessment of performance for several pre-trained
language models across a variety of tasks, languages, and datasets, including
an evaluation of fairness in the results.
- Abstract(参考訳): 近年、利用者が生成したテキストから意見や情報を抽出することは、主にソーシャルメディアのコンテンツが前例のない量であることから、多くの関心を集めている。
しかし、社会的研究者はこれらのタスクに最先端のツールを採用する際にいくつかの問題に直面しており、それは通常、商用apiの背後にあるか、英語以外の言語で使用できないか、あるいは非専門家で使うのが非常に複雑である。
これらの問題に対処するために、意見マイニングやその他のソーシャルNLPタスク用に設計された総合多言語Pythonツールキットpysentimientoを提案する。
このオープンソースのライブラリは、スペイン語、英語、イタリア語、ポルトガル語の最新のモデルを、使いやすいpythonライブラリで提供する。
本稿では,様々なタスク,言語,データセットにまたがる事前学習された言語モデルの性能を総合的に評価し,その結果の公平性を評価する。
関連論文リスト
- Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - PyThaiNLP: Thai Natural Language Processing in Python [4.61731352666614]
PyThaiNLPは、Pythonで実装されたタイ語のためのオープンソース自然言語処理(NLP)ライブラリである。
タイ語の幅広いソフトウェア、モデル、データセットを提供する。
論文 参考訳(メタデータ) (2023-12-07T19:19:43Z) - PyPOTS: A Python Toolbox for Data Mining on Partially-Observed Time
Series [0.0]
PyPOTSは、部分的に保存された時系列のデータマイニングと分析に特化した、オープンソースのPythonライブラリである。
これは、計算、分類、クラスタリング、予測の4つのタスクに分類される多様なアルゴリズムに容易にアクセスできる。
論文 参考訳(メタデータ) (2023-05-30T07:57:05Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - TweetNLP: Cutting-Edge Natural Language Processing for Social Media [22.6980150693332]
TweetNLPは、ソーシャルメディアにおける自然言語処理(NLP)の統合プラットフォームである。
感情分析や名前付きエンティティ認識といった汎用的な焦点領域を含む、多様なNLPタスク群をサポートする。
システムは、ソーシャルメディアのテキストに特化した、合理的な大きさのTransformerベースの言語モデルを利用している。
論文 参考訳(メタデータ) (2022-06-29T17:16:58Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Python for Smarter Cities: Comparison of Python libraries for static and
interactive visualisations of large vector data [0.0]
Pythonは簡潔で自然な構文を持ち、コンピュータサイエンスの背景を持たない市町村のスタッフにとって参入障壁は低い。
本研究では,大規模ベクトルデータセットの可視化生成に関して,Pythonエコシステムにおける顕著かつ活発に開発された可視化ライブラリを評価する。
短いリストのライブラリはすべて、小さなデータセットと大きなデータセットの両方のサンプルマップ製品を生成することができた。
論文 参考訳(メタデータ) (2022-02-26T10:23:29Z) - NLPGym -- A toolkit for evaluating RL agents on Natural Language
Processing Tasks [2.5760935151452067]
NLPGymはオープンソースのPythonツールキットで、標準のNLPタスクに対してインタラクティブなテキスト環境を提供する。
研究の基盤となるRLアルゴリズムの異なる6つのタスクについて実験を行った。
論文 参考訳(メタデータ) (2020-11-16T20:58:35Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。