論文の概要: StyloMetrix: An Open-Source Multilingual Tool for Representing
Stylometric Vectors
- arxiv url: http://arxiv.org/abs/2309.12810v1
- Date: Fri, 22 Sep 2023 11:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 14:51:17.661306
- Title: StyloMetrix: An Open-Source Multilingual Tool for Representing
Stylometric Vectors
- Title(参考訳): StyloMetrix: スティロメトリックベクトルを表現するためのオープンソースの多言語ツール
- Authors: Inez Okulska, Daria Stetsenko, Anna Ko{\l}os, Agnieszka Karli\'nska,
Kinga G{\l}\k{a}bi\'nska, Adam Nowakowski
- Abstract要約: この作業は、StyloMetrixと呼ばれるオープンソースの多言語ツールの概要を提供することを目的としている。
文法、文法、語彙の様々な側面をカバーするスタイルのテキスト表現を提供する。
StyloMetrixは、ポーランド語を主要言語として、英語、ウクライナ語、ロシア語の4つの言語をカバーしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work aims to provide an overview on the open-source multilanguage tool
called StyloMetrix. It offers stylometric text representations that cover
various aspects of grammar, syntax and lexicon. StyloMetrix covers four
languages: Polish as the primary language, English, Ukrainian and Russian. The
normalized output of each feature can become a fruitful course for machine
learning models and a valuable addition to the embeddings layer for any deep
learning algorithm. We strive to provide a concise, but exhaustive overview on
the application of the StyloMetrix vectors as well as explain the sets of the
developed linguistic features. The experiments have shown promising results in
supervised content classification with simple algorithms as Random Forest
Classifier, Voting Classifier, Logistic Regression and others. The deep
learning assessments have unveiled the usefulness of the StyloMetrix vectors at
enhancing an embedding layer extracted from Transformer architectures. The
StyloMetrix has proven itself to be a formidable source for the machine
learning and deep learning algorithms to execute different classification
tasks.
- Abstract(参考訳): この作業は、StyloMetrixと呼ばれるオープンソースの多言語ツールの概要を提供することを目的としている。
文法、構文、語彙の様々な側面をカバーするスタイル的テキスト表現を提供する。
スタイロメトリクスはポーランド語、英語、ウクライナ語、ロシア語の4つの言語をカバーしている。
それぞれの機能の正規化された出力は、機械学習モデルにとって実りあるコースとなり、どんなディープラーニングアルゴリズムにも埋め込み層に価値ある追加となる。
我々は,StyloMetrixベクトルの適用について,簡潔ながら網羅的な概要と,発達した言語的特徴の集合を説明することに努めている。
実験では,ランダムフォレスト分類器,投票分類器,ロジスティック回帰など,単純なアルゴリズムを用いた教師付きコンテンツ分類において有望な結果が得られた。
ディープラーニングアセスメントは、Transformerアーキテクチャから抽出した埋め込み層を強化する上で、StyloMetrixベクトルの有用性を明らかにした。
StyloMetrixは、異なる分類タスクを実行するための機械学習とディープラーニングアルゴリズムにとって、恐ろしいソースであることが証明されている。
関連論文リスト
- Comparative Analysis of Multilingual Text Classification &
Identification through Deep Learning and Embedding Visualization [0.0]
この研究では、17の言語を含むデータセットにLangDetect、LangId、FastText、Sentence Transformerを採用している。
FastText多層パーセプトロンモデルは、精度、精度、リコール、F1スコアを達成し、Sentence Transformerモデルを上回った。
論文 参考訳(メタデータ) (2023-12-06T12:03:27Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - The Grammar and Syntax Based Corpus Analysis Tool For The Ukrainian
Language [0.0]
StyloMetrixは、英語、スペイン語、ドイツ語などの文法、スタイリスティック、構文パターンを分析するツールである。
我々は、StyloMetrixパイプラインを説明し、テキスト分類タスクのためにこのツールでいくつかの実験を行う。
また、パッケージの主な制限とメトリクスの評価手順についても述べる。
論文 参考訳(メタデータ) (2023-05-22T22:52:47Z) - GENIUS: Sketch-based Language Model Pre-training via Extreme and
Selective Masking for Text Generation and Augmentation [76.7772833556714]
本稿では,スケッチを入力として用いた条件付きテキスト生成モデルGENIUSを紹介する。
genIUSは、スケッチの目的から新しく再構築された大規模なテキストコーパスで事前訓練されている。
様々な自然言語処理(NLP)タスクに対して, GENIUS は強力かつ使いやすいデータ拡張ツールとして利用できることを示す。
論文 参考訳(メタデータ) (2022-11-18T16:39:45Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Latin writing styles analysis with Machine Learning: New approach to old
questions [0.0]
中世のテキストは、世代から世代までのコミュニケーション手段を用いて、心から学び、普及した。
ラテン語で書かれた文学の特定の構成を考慮に入れれば、特定の物語テキストの親しみやすい情報源の確率パターンを探索し、示すことができる。
論文 参考訳(メタデータ) (2021-09-01T20:21:45Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。