論文の概要: The Grammar and Syntax Based Corpus Analysis Tool For The Ukrainian
Language
- arxiv url: http://arxiv.org/abs/2305.13530v1
- Date: Mon, 22 May 2023 22:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 20:21:46.129167
- Title: The Grammar and Syntax Based Corpus Analysis Tool For The Ukrainian
Language
- Title(参考訳): ウクライナ語の文法と構文に基づくコーパス分析ツール
- Authors: Daria Stetsenko and Inez Okulska
- Abstract要約: StyloMetrixは、英語、スペイン語、ドイツ語などの文法、スタイリスティック、構文パターンを分析するツールである。
我々は、StyloMetrixパイプラインを説明し、テキスト分類タスクのためにこのツールでいくつかの実験を行う。
また、パッケージの主な制限とメトリクスの評価手順についても述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides an overview of a text mining tool the StyloMetrix
developed initially for the Polish language and further extended for English
and recently for Ukrainian. The StyloMetrix is built upon various metrics
crafted manually by computational linguists and researchers from literary
studies to analyze grammatical, stylistic, and syntactic patterns. The idea of
constructing the statistical evaluation of syntactic and grammar features is
straightforward and familiar for the languages like English, Spanish, German,
and others; it is yet to be developed for low-resource languages like
Ukrainian. We describe the StyloMetrix pipeline and provide some experiments
with this tool for the text classification task. We also describe our package's
main limitations and the metrics' evaluation procedure.
- Abstract(参考訳): 本稿では,ポーランド語で開発されたテキストマイニングツールであるStyloMetrixの概要について述べる。
StyloMetrixは、計算言語学者や文学研究の研究者によって手作業で作成され、文法、スタイリスティック、構文パターンを分析している。
構文と文法の特徴の統計的評価を構築するというアイデアは、英語、スペイン語、ドイツ語などの言語では単純で親しみやすく、ウクライナ語のような低リソース言語ではまだ開発されていない。
我々は,StyloMetrixパイプラインについて記述し,テキスト分類タスクのための実験を行う。
また、パッケージの主な制限とメトリクスの評価手順についても述べる。
関連論文リスト
- StyloMetrix: An Open-Source Multilingual Tool for Representing
Stylometric Vectors [0.0]
この作業は、StyloMetrixと呼ばれるオープンソースの多言語ツールの概要を提供することを目的としている。
文法、文法、語彙の様々な側面をカバーするスタイルのテキスト表現を提供する。
StyloMetrixは、ポーランド語を主要言語として、英語、ウクライナ語、ロシア語の4つの言語をカバーしている。
論文 参考訳(メタデータ) (2023-09-22T11:53:47Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - NILC-Metrix: assessing the complexity of written and spoken language in
Brazilian Portuguese [0.32622301272834514]
本稿では、談話研究において提案される200のメトリクスからなる計算システムであるNILC-Metrixを提示し、公開する。
NILC-Metrixのメトリクスは、2008年にCoh-Metrix-Portによって開発され、PorSimplesプロジェクトの範囲内で開発された。
論文 参考訳(メタデータ) (2021-12-17T16:51:00Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Language Lexicons for Hindi-English Multilingual Text Processing [0.0]
現在の言語識別技術は、文書が固定された言語のセットの1つにテキストを含んでいることを前提としている。
ヒンディー語と英語の混合言語処理タスクのための大きな標準コーパスが利用できないため、言語辞書を提案する。
これらの語彙はヒンディー語と英語の語彙を翻訳して分類器を学習することによって作られる。
論文 参考訳(メタデータ) (2021-06-29T05:42:54Z) - The Grammar of Emergent Languages [19.17358904009426]
UGI技術は創発的言語を解析するのに適していることを示す。
次に、典型的な参照ゲーム設定に現れる言語が構文構造を示すかどうかを考察する。
我々の実験は、構造が現れるためには、一定のメッセージ長と語彙サイズが必要であることを実証した。
論文 参考訳(メタデータ) (2020-10-05T15:06:27Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。