Fugu-MT 論文翻訳(概要): The Grammar and Syntax Based Corpus Analysis Tool For The Ukrainian Language

論文の概要: The Grammar and Syntax Based Corpus Analysis Tool For The Ukrainian Language

arxiv url: http://arxiv.org/abs/2305.13530v1
Date: Mon, 22 May 2023 22:52:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 20:21:46.129167
Title: The Grammar and Syntax Based Corpus Analysis Tool For The Ukrainian Language
Title（参考訳）: ウクライナ語の文法と構文に基づくコーパス分析ツール
Authors: Daria Stetsenko and Inez Okulska
Abstract要約: StyloMetrixは、英語、スペイン語、ドイツ語などの文法、スタイリスティック、構文パターンを分析するツールである。我々は、StyloMetrixパイプラインを説明し、テキスト分類タスクのためにこのツールでいくつかの実験を行う。また、パッケージの主な制限とメトリクスの評価手順についても述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper provides an overview of a text mining tool the StyloMetrix developed initially for the Polish language and further extended for English and recently for Ukrainian. The StyloMetrix is built upon various metrics crafted manually by computational linguists and researchers from literary studies to analyze grammatical, stylistic, and syntactic patterns. The idea of constructing the statistical evaluation of syntactic and grammar features is straightforward and familiar for the languages like English, Spanish, German, and others; it is yet to be developed for low-resource languages like Ukrainian. We describe the StyloMetrix pipeline and provide some experiments with this tool for the text classification task. We also describe our package's main limitations and the metrics' evaluation procedure.
Abstract（参考訳）: 本稿では,ポーランド語で開発されたテキストマイニングツールであるStyloMetrixの概要について述べる。 StyloMetrixは、計算言語学者や文学研究の研究者によって手作業で作成され、文法、スタイリスティック、構文パターンを分析している。構文と文法の特徴の統計的評価を構築するというアイデアは、英語、スペイン語、ドイツ語などの言語では単純で親しみやすく、ウクライナ語のような低リソース言語ではまだ開発されていない。我々は,StyloMetrixパイプラインについて記述し,テキスト分類タスクのための実験を行う。また、パッケージの主な制限とメトリクスの評価手順についても述べる。

関連論文リスト

RusLICA: A Russian-Language Platform for Automated Linguistic Inquiry and Category Analysis [0.0]
本稿では,レマを42の精神言語カテゴリーにマッピングするプロセスと,RusLICA Webサービスの一部としてのアナライザの実装について述べる。
論文参考訳（メタデータ） (2026-01-28T05:43:40Z)
EmoBench-UA: A Benchmark Dataset for Emotion Detection in Ukrainian [60.61343989805093]
EmoBench-UAはウクライナのテキストで感情を検出するための最初の注釈付きデータセットである。その結果,ウクライナ語のような非主流言語における感情分類の課題が浮き彫りになった。
論文参考訳（メタデータ） (2025-05-29T09:49:57Z)
Dialectal and Low-Resource Machine Translation for Aromanian [44.99833362998488]
本稿では,英語,ルーマニア語,ルーマニア語をサポートするニューラルマシン翻訳システムの構築プロセスについて述べる。主な貢献は、79,000の文対からなるルーマニアとルーマニアの最も広範な平行コーパスの作成である。そこで本研究では,テキストマイニングと自動評価のための言語に依存しない文埋め込みモデルを含む補助ツール群を提案する。
論文参考訳（メタデータ） (2024-10-23T10:00:23Z)
LiMe: a Latin Corpus of Late Medieval Criminal Sentences [39.26357402982764]
本稿では,Libri sententiarum potestatis Mediolaniという一連の中世写本から抽出された325の文書のコーパスであるLiMeデータセットについて述べる。
論文参考訳（メタデータ） (2024-04-19T12:06:28Z)
Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文参考訳（メタデータ） (2024-04-09T11:39:53Z)
StyloMetrix: An Open-Source Multilingual Tool for Representing Stylometric Vectors [0.0]
この作業は、StyloMetrixと呼ばれるオープンソースの多言語ツールの概要を提供することを目的としている。文法、文法、語彙の様々な側面をカバーするスタイルのテキスト表現を提供する。 StyloMetrixは、ポーランド語を主要言語として、英語、ウクライナ語、ロシア語の4つの言語をカバーしている。
論文参考訳（メタデータ） (2023-09-22T11:53:47Z)
A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文参考訳（メタデータ） (2023-05-29T11:54:50Z)
Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文参考訳（メタデータ） (2022-02-19T11:55:40Z)
NILC-Metrix: assessing the complexity of written and spoken language in Brazilian Portuguese [0.32622301272834514]
本稿では、談話研究において提案される200のメトリクスからなる計算システムであるNILC-Metrixを提示し、公開する。 NILC-Metrixのメトリクスは、2008年にCoh-Metrix-Portによって開発され、PorSimplesプロジェクトの範囲内で開発された。
論文参考訳（メタデータ） (2021-12-17T16:51:00Z)
A Massively Multilingual Analysis of Cross-linguality in Shared Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文参考訳（メタデータ） (2021-09-13T21:05:37Z)
The Grammar of Emergent Languages [19.17358904009426]
UGI技術は創発的言語を解析するのに適していることを示す。次に、典型的な参照ゲーム設定に現れる言語が構文構造を示すかどうかを考察する。我々の実験は、構造が現れるためには、一定のメッセージ長と語彙サイズが必要であることを実証した。
論文参考訳（メタデータ） (2020-10-05T15:06:27Z)
Bridging Linguistic Typology and Multilingual Machine Translation with Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。我々の表現は類型学を組み込み、言語関係と相関関係を強化する。次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文参考訳（メタデータ） (2020-04-30T16:25:39Z)
Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文参考訳（メタデータ） (2020-03-10T17:17:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。