論文の概要: HORAE: an annotated dataset of books of hours
- arxiv url: http://arxiv.org/abs/2012.00351v1
- Date: Tue, 1 Dec 2020 09:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 19:49:31.271991
- Title: HORAE: an annotated dataset of books of hours
- Title(参考訳): HORAE:数時間の注釈付き書籍データセット
- Authors: M\'elodie Boillet, Marie-Laurence Bonhomme, Dominique Stutzmann and
Christopher Kermorvant
- Abstract要約: 我々は,中世後期に富裕層が所有・使用していた手書きの祈願書である,時間帯の書物から注釈付きページのデータセットを新たに導入した。
このデータセットは、この時代のヨーロッパにおける宗教思想の進化に関する歴史的研究を行うために作られたものである。
- 参考スコア(独自算出の注目度): 0.4588028371034407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce in this paper a new dataset of annotated pages from books of
hours, a type of handwritten prayer books owned and used by rich lay people in
the late middle ages. The dataset was created for conducting historical
research on the evolution of the religious mindset in Europe at this period
since the book of hours represent one of the major sources of information
thanks both to their rich illustrations and the different types of religious
sources they contain. We first describe how the corpus was collected and
manually annotated then present the evaluation of a state-of-the-art system for
text line detection and for zone detection and typing. The corpus is freely
available for research.
- Abstract(参考訳): 本稿では,中世後期に富裕層が所有・使用していた手書きの祈願書である,時間帯の書物からの注釈付きページのデータセットについて紹介する。
このデータセットは、この時代のヨーロッパにおける宗教思想の進化に関する歴史的研究を行うために作られたもので、この本は、豊かなイラストとそれらが含む様々な宗教資料の両方のおかげで、主要な情報源の1つとなっている。
まず,コーパスの収集と手作業による注釈付けを行い,テキスト行検出とゾーン検出とタイピングのための最先端システムの評価を行った。
コーパスは無料で研究が可能である。
関連論文リスト
- Critical biblical studies via word frequency analysis: unveiling text authorship [7.2762881851201255]
私たちは、聖書の最初の9冊にまたがる多くの章にまたがる3つの異なる著者を区別することを目指しています。
我々の分析は、最初の2人の著者(DとDtrH)が、専門家の評価と一致した事実であるPよりもはるかに密接な関係があることを示唆している。
論文 参考訳(メタデータ) (2024-10-24T22:08:38Z) - News Signals: An NLP Library for Text and Time Series [3.850666668546735]
News Signalsは、入力がテキストデータのクラスタであるデータセットの構築と使用のためのオープンソースのライブラリである。
時系列の振る舞いの予測に関連する多様なデータサイエンスとNLP問題設定をサポートする。
論文 参考訳(メタデータ) (2023-12-18T18:02:41Z) - Towards Corpus-Scale Discovery of Selection Biases in News Coverage:
Comparing What Sources Say About Entities as a Start [65.28355014154549]
本稿では,大規模ニュースコーパスにおけるニュースコンテンツから直接メディア選択バイアスのパターンを発見するために,スケーラブルなNLPシステムを構築する上での課題について検討する。
我々は,世界519のニュースソースから180万件のニュース記事のコーパスであるNELA-2020のケーススタディを通じて,フレームワークの能力を示す。
論文 参考訳(メタデータ) (2023-04-06T23:36:45Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Placing (Historical) Facts on a Timeline: A Classification cum Coref
Resolution Approach [4.809236881780707]
タイムラインは、ある期間に起こった重要な歴史的事実を視覚化する最も効果的な方法の1つである。
複数の(歴史的)テキスト文書からイベントタイムラインを生成するための2段階システムを提案する。
我々の結果は、歴史学者、歴史研究の進展、そして国の社会・政治の風景を理解する上で非常に役立ちます。
論文 参考訳(メタデータ) (2022-06-28T15:36:44Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - MIND - Mainstream and Independent News Documents Corpus [0.7347989843033033]
本稿では,オンライン主流メディアや代替メディアソースから収集したさまざまな種類の記事からなるポルトガル語コーパスであるMINDを特徴付ける。
コーパスの記事は、事実、意見、娯楽、風刺、陰謀論の5つのコレクションにまとめられている。
論文 参考訳(メタデータ) (2021-08-13T14:00:12Z) - Artificial intelligence based writer identification generates new
evidence for the unknown scribes of the Dead Sea Scrolls exemplified by the
Great Isaiah Scroll (1QIsaa) [5.285396202883411]
我々は、パターン認識と人工知能技術を用いて、著者識別に関するスクロールのパレオグラフィーを革新する。
多くの学者は1QIsaaは1人の筆記者によって書かれたと信じているが、本巻の連載コラムの破断点の新しい証拠を報告している。
この研究は、聖書の旧約聖書文化に新たな光を当て、古代の聖書のテキストが単一の書体によってコピーされるのではなく、複数の書体が特定の写本と密に協力できるという、新しい具体的な証拠を提供した。
論文 参考訳(メタデータ) (2020-10-27T17:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。