論文の概要: The Russian Legislative Corpus
- arxiv url: http://arxiv.org/abs/2406.04855v2
- Date: Mon, 28 Oct 2024 12:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:47.357048
- Title: The Russian Legislative Corpus
- Title(参考訳): ロシア立法府
- Authors: Denis Saveliev, Ruslan Kuchakov,
- Abstract要約: コーパスは281,413通のテキスト(176,523,268通のトークン)とメタデータを収集する。
コーパスには、最小限の事前処理を備えた原文と、モルフォシンタクティックマークアップを用いた言語解析のためのバージョンの2つのバージョンがある。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present the comprehensive Russian primary and secondary legislation corpus covering 1991 to 2023. The corpus collects all 281,413 texts (176,523,268 tokens) of non-secret federal regulations and acts, along with their metadata. The corpus has two versions the original text with minimal preprocessing and a version prepared for linguistic analysis with morphosyntactic markup.
- Abstract(参考訳): 1991年から2023年までの包括的ロシア第一・第二法制を提示する。
コーパスは281,413通のテキスト(176,523,268通のトークン)とメタデータを収集する。
コーパスには、最小限の事前処理を備えた原文と、モルフォシンタクティックマークアップを用いた言語解析のためのバージョンの2つのバージョンがある。
関連論文リスト
- The SAMER Arabic Text Simplification Corpus [9.369209124775043]
MadeR Corpusは、学校の学習者を対象にしたテキスト単純化のための、手動で注釈付けされたアラビアのパラレルコーパスである。
私たちのコーパスは1865年から1955年の間に出版された15のアラビア小説から選ばれた159Kワードのテキストで構成されています。
コーパスには、文書レベルと単語レベルの両方での可読性レベルのアノテーションと、2つの異なる可読性レベルの学習者を対象にしたテキスト毎の2つの簡易並列バージョンが含まれています。
論文 参考訳(メタデータ) (2024-04-29T11:34:06Z) - Exploring Methods for Cross-lingual Text Style Transfer: The Case of
Text Detoxification [77.45995868988301]
テキスト・デトックス化(text detoxification)とは、テキストのスタイルを有害から中立に移行させる作業である。
本稿では,言語間テキストのデトックス化戦略を大規模に検討する。
論文 参考訳(メタデータ) (2023-11-23T11:40:28Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - RuCoCo: a new Russian corpus with coreference annotation [69.3939291118954]
我々は、コア参照アノテーションを持つ新しいコーパス、ロシアコア参照コーパス(RuCoCo)を提案する。
RuCoCoにはロシア語のニューステキストが含まれており、一部はスクラッチから注釈付けされ、残りは人間のアノテーションによって機械生成のアノテーションが洗練されている。
コーパスのサイズは100万語で、約15万人が言及している。
論文 参考訳(メタデータ) (2022-06-10T07:50:09Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z) - Contemporary Amharic Corpus: Automatically Morpho-Syntactically Tagged
Amharic Corpus [0.04915744683251149]
Amharic corpusは部分的にウェブコーパスである。
テキストは、異なるドメインから25,199の文書から収集される。
約2400万の正書法語がトークン化されている。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - HELFI: a Hebrew-Greek-Finnish Parallel Bible Corpus with Cross-Lingual
Morpheme Alignment [0.0]
205年前、形態学的にヘブライ・フィンランド語とギリシア・フィンランド語が手作業で作られた。
本稿では,元来の一目的データベース作成から始まる非自明な編集プロセスについて述べる。
無償のテキストエディションとアノテーションのみを使用して、再構築で終了する。
論文 参考訳(メタデータ) (2020-03-16T22:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。