論文の概要: Opera Graeca Adnotata: Building a 34M+ Token Multilayer Corpus for Ancient Greek
- arxiv url: http://arxiv.org/abs/2404.00739v1
- Date: Sun, 31 Mar 2024 16:54:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:01:09.008564
- Title: Opera Graeca Adnotata: Building a 34M+ Token Multilayer Corpus for Ancient Greek
- Title(参考訳): Opera Graeca Adnotata: 古代ギリシアのために34M以上の多層コーパスを作る
- Authors: Giuseppe G. A. Celano,
- Abstract要約: オペラ・グラエカ・アドノタタ(Opera Graeca Adnotata, OGA)は、古代ギリシア語で最大のオープンアクセス型多層コーパスである。
OGAは1,687の著作物と、PerseusDLとOpenAndLatin GitHubリポジトリから提供される34M以上のトークンで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this article, the beta version 0.1.0 of Opera Graeca Adnotata (OGA), the largest open-access multilayer corpus for Ancient Greek (AG) is presented. OGA consists of 1,687 literary works and 34M+ tokens coming from the PerseusDL and OpenGreekAndLatin GitHub repositories, which host AG texts ranging from about 800 BCE to about 250 CE. The texts have been enriched with seven annotation layers: (i) tokenization layer; (ii) sentence segmentation layer; (iii) lemmatization layer; (iv) morphological layer; (v) dependency layer; (vi) dependency function layer; (vii) Canonical Text Services (CTS) citation layer. The creation of each layer is described by highlighting the main technical and annotation-related issues encountered. Tokenization, sentence segmentation, and CTS citation are performed by rule-based algorithms, while morphosyntactic annotation is the output of the COMBO parser trained on the data of the Ancient Greek Dependency Treebank. For the sake of scalability and reusability, the corpus is released in the standoff formats PAULA XML and its offspring LAULA XML.
- Abstract(参考訳): 本稿では,古代ギリシア語 (AG) 用のオープンアクセス多層コーパスとして最大である Opera Graeca Adnotata (OGA) のベータ版 0.1.0 を紹介する。
OGAは1,687の著作物と34M以上のトークンで構成されており、PerseusDLとOpenGreekAndLatin GitHubリポジトリから来ている。
テキストには7つのアノテーション層が備わっている。
(i)トークン化層
(ii)文セグメンテーション層
(三)補修層
(四)形態素層
(v)依存性層
(vi)依存性関数層
(vii)標準テキストサービス(CTS)引用層。
各レイヤの作成は、遭遇した主要な技術的およびアノテーションに関する問題を強調することで説明されます。
トークン化、文分割、CTS引用はルールベースのアルゴリズムで行われ、モルフォシンタクティックアノテーションは古代ギリシアの依存木バンクのデータに基づいて訓練されたCOMBOパーサの出力である。
スケーラビリティと再利用性のために、このコーパスはPAULA XMLとその子孫のLAULA XMLのスタンドオフフォーマットでリリースされている。
関連論文リスト
- From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - KOSMOS-2.5: A Multimodal Literate Model [136.96172068766285]
テキスト集約画像の機械読取のためのマルチモーダルリテラルモデル KOSMOS-2.5 を提案する。
KOSMOS-2.5は2つの異なる相補的な転写タスクに優れる。
我々は文書理解タスクにKoSMOS-2.5を微調整し、KoSMOS-2.5-CHATという文書理解ジェネラリストを生み出した。
論文 参考訳(メタデータ) (2023-09-20T15:50:08Z) - Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation
from Text [2.396908230113859]
大規模言語モデル (LLM) と創発的機能を持つ基礎モデルは、多くのNLPタスクの性能を向上させることが示されている。
オントロジーでガイドされた自然言語テキストから知識グラフ(KG)を生成する言語モデルの能力を評価するベンチマークであるText2KGBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T14:47:15Z) - Structured Dialogue Discourse Parsing [79.37200787463917]
談話解析は、多人数会話の内部構造を明らかにすることを目的としている。
本稿では,符号化と復号化という2つの観点から,従来の作業を改善する原理的手法を提案する。
実験の結果,本手法は,STACでは2.3,Mollweniでは1.5,先行モデルでは2.3を上回った。
論文 参考訳(メタデータ) (2023-06-26T22:51:01Z) - TegFormer: Topic-to-Essay Generation with Good Topic Coverage and High
Text Coherence [8.422108048684215]
本稿では,トピック・ツー・エッセイ生成のための新しいアプローチであるTegFormerを提案する。
emphTopic-Extensionレイヤは、与えられたトピックとドメイン固有のコンテキストの間のインタラクションをキャプチャする。
emphEmbedding-Fusionモジュールは、与えられたコーパスから学習したドメイン固有の単語埋め込みと、大量のテキストデータに基づいて事前訓練されたGPT-2モデルによって提供される汎用単語埋め込みとを組み合わせる。
論文 参考訳(メタデータ) (2022-12-27T11:50:14Z) - MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文 参考訳(メタデータ) (2022-11-27T22:47:37Z) - HierarchyNet: Learning to Summarize Source Code with Heterogeneous
Representations [31.5460817913009]
本稿では,HCR(Heterogeneous Code Representations)と特殊設計したHierarchyNetを用いたコード要約手法を提案する。
HCRは、粗粒度のコード要素を抽象化し、階層構造に細粒度のプログラム要素を組み込むことで、語彙、構文、意味レベルで重要なコード特徴を効果的にキャプチャする。
我々はHCRの各層をヘテロジニアスグラフ変換器,ツリーベースCNN,変換器のユニークな組み合わせにより個別に処理する。
論文 参考訳(メタデータ) (2022-05-31T00:16:47Z) - Academic Resource Text Level Multi-label Classification based on
Attention [16.71166207897885]
階層的多ラベル学術テキスト分類(Hierarchical Multi-label academic text classification, HMTC)は、学術テキストを階層的に構造化されたラベリングシステムに割り当てることである。
本稿では,テキスト,キーワード,階層構造などの特徴を統合することで,学術テキスト(AHMCA)の注目に基づく階層的多言語分類アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-21T05:32:35Z) - ESPnet-ST IWSLT 2021 Offline Speech Translation System [56.83606198051871]
本稿では,ESPnet-STグループによる音声翻訳トラックにおけるIWSLT 2021の提出について述べる。
今年は、データ、アーキテクチャ、オーディオセグメンテーションのトレーニングにさまざまな取り組みを行いました。
私たちの最高のE2Eシステムは、すべてのテクニックをモデルアンサンブルと組み合わせ、31.4BLEUを達成しました。
論文 参考訳(メタデータ) (2021-07-01T17:49:43Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。