論文の概要: The Grammar and Syntax Based Corpus Analysis Tool For The Ukrainian
Language
- arxiv url: http://arxiv.org/abs/2305.13530v1
- Date: Mon, 22 May 2023 22:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 20:21:46.129167
- Title: The Grammar and Syntax Based Corpus Analysis Tool For The Ukrainian
Language
- Title(参考訳): ウクライナ語の文法と構文に基づくコーパス分析ツール
- Authors: Daria Stetsenko and Inez Okulska
- Abstract要約: StyloMetrixは、英語、スペイン語、ドイツ語などの文法、スタイリスティック、構文パターンを分析するツールである。
我々は、StyloMetrixパイプラインを説明し、テキスト分類タスクのためにこのツールでいくつかの実験を行う。
また、パッケージの主な制限とメトリクスの評価手順についても述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides an overview of a text mining tool the StyloMetrix
developed initially for the Polish language and further extended for English
and recently for Ukrainian. The StyloMetrix is built upon various metrics
crafted manually by computational linguists and researchers from literary
studies to analyze grammatical, stylistic, and syntactic patterns. The idea of
constructing the statistical evaluation of syntactic and grammar features is
straightforward and familiar for the languages like English, Spanish, German,
and others; it is yet to be developed for low-resource languages like
Ukrainian. We describe the StyloMetrix pipeline and provide some experiments
with this tool for the text classification task. We also describe our package's
main limitations and the metrics' evaluation procedure.
- Abstract(参考訳): 本稿では,ポーランド語で開発されたテキストマイニングツールであるStyloMetrixの概要について述べる。
StyloMetrixは、計算言語学者や文学研究の研究者によって手作業で作成され、文法、スタイリスティック、構文パターンを分析している。
構文と文法の特徴の統計的評価を構築するというアイデアは、英語、スペイン語、ドイツ語などの言語では単純で親しみやすく、ウクライナ語のような低リソース言語ではまだ開発されていない。
我々は,StyloMetrixパイプラインについて記述し,テキスト分類タスクのための実験を行う。
また、パッケージの主な制限とメトリクスの評価手順についても述べる。
関連論文リスト
- Dialectal and Low-Resource Machine Translation for Aromanian [44.99833362998488]
本稿では,英語,ルーマニア語,ルーマニア語をサポートするニューラルマシン翻訳システムの構築プロセスについて述べる。
主な貢献は、79,000の文対からなるルーマニアとルーマニアの最も広範な平行コーパスの作成である。
そこで本研究では,テキストマイニングと自動評価のための言語に依存しない文埋め込みモデルを含む補助ツール群を提案する。
論文 参考訳(メタデータ) (2024-10-23T10:00:23Z) - LiMe: a Latin Corpus of Late Medieval Criminal Sentences [39.26357402982764]
本稿では,Libri sententiarum potestatis Mediolaniという一連の中世写本から抽出された325の文書のコーパスであるLiMeデータセットについて述べる。
論文 参考訳(メタデータ) (2024-04-19T12:06:28Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - StyloMetrix: An Open-Source Multilingual Tool for Representing
Stylometric Vectors [0.0]
この作業は、StyloMetrixと呼ばれるオープンソースの多言語ツールの概要を提供することを目的としている。
文法、文法、語彙の様々な側面をカバーするスタイルのテキスト表現を提供する。
StyloMetrixは、ポーランド語を主要言語として、英語、ウクライナ語、ロシア語の4つの言語をカバーしている。
論文 参考訳(メタデータ) (2023-09-22T11:53:47Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - NILC-Metrix: assessing the complexity of written and spoken language in
Brazilian Portuguese [0.32622301272834514]
本稿では、談話研究において提案される200のメトリクスからなる計算システムであるNILC-Metrixを提示し、公開する。
NILC-Metrixのメトリクスは、2008年にCoh-Metrix-Portによって開発され、PorSimplesプロジェクトの範囲内で開発された。
論文 参考訳(メタデータ) (2021-12-17T16:51:00Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。