論文の概要: Decision Support to Crowdsourcing for Annotation and Transcription of
Ancient Documents: The RECITAL Workshop
- arxiv url: http://arxiv.org/abs/2305.18828v1
- Date: Tue, 30 May 2023 08:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:29:19.899049
- Title: Decision Support to Crowdsourcing for Annotation and Transcription of
Ancient Documents: The RECITAL Workshop
- Title(参考訳): 古文書の注釈と転写のためのクラウドソーシングのための意思決定支援:RECITALワークショップ
- Authors: Olivier Aubert (LS2N, Nantes Univ, LS2N - \'equipe DUKe), Benjamin
Hervy (CFV, Nantes Univ, LS2N - \'equipe DUKe), Guillaume Raschia (LINA,
Nantes Univ, LS2N - \'equipe DUKe), Fran\c{c}oise Rubellin (LAMO, Nantes
Univ)
- Abstract要約: 我々は,Com'edie-Franc CaiseとCom'edie-Italienneについてより深く学ぶことを目指している。
我々は、未公開かつ未公開のリソースを大量に採用しており、フランスのビブリオテケ国立図書館で利用可能な、63の日替りレジスタの27,544ページを保有しています。
クラウドソーシングプラットフォームであるRECITALを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the 18th century in Paris, only two public theatres could officially
perform comedies: the Com{\'e}die-Fran{\c c}aise, and the
Com{\'e}die-Italienne. The latter was much less well known. By studying a
century of accounting registers, we aim to learn more about its successful
plays, its actors, musicians, set designers, and all the small trades necessary
for its operation, its administration, logistics and finances. To this end, we
employ a mass of untapped and unpublished resources, the 27,544 pages of 63
daily registers available at the Biblioth{\`e}que Nationale de France (BnF).
And we take a decidedly fresh look at emerging forms of creation and changes in
the entertainmenteconomy. We developed the crowdsourcing platform RECITAL to
collect and index the data from theregisters, following an emerging trend in
Digital Humanities. RECITAL is built upon the ScribeAPI framework and it offers
a fully-fledged web application to classify the pages, annotate with marks and
tags, transcribe the indexed marks and even to verify the previous transcripts.
We also describe a multi-level data model and to develop a series of monitoring
anddecision tools to support crowdsourced data management up to their
definitive form.
- Abstract(参考訳): 18世紀のパリでは、公式の喜劇を上演できる劇場は2つしかなかった: "com{\'e}die-fran{\c c}aise" と "com{\'e}die-italienne" である。
後者はあまり知られていなかった。
一世紀にわたる会計簿の研究により、その成功作、俳優、音楽家、セットデザイナー、そしてその運営、管理、物流、財務に必要なすべての小さな取引についてより深く学ぶことを目指している。
この目的のために我々は、フランス国立図書館(bnf)で利用可能な63の日次レジスターのうち27,544ページという、未出版のリソースを大量に採用している。
そして私たちは、エンタテインメント経済における新たな創造形態と変化を、明確に見直す。
クラウドソーシングプラットフォームrecitalを開発したのは、デジタルヒューマニティの新たなトレンドに従って、テリジストからデータを収集し、インデクシングするためのものだ。
RECITALはScribeAPIフレームワーク上に構築されており、ページの分類、マークとタグの注釈付け、インデックス付きマークの書き起こし、さらには以前の書き起こしの検証のための、本格的なWebアプリケーションを提供している。
また,クラウドソーシングデータ管理を支援するため,マルチレベルデータモデルについて記述し,一連のモニタリング・意思決定ツールを開発する。
関連論文リスト
- Dolma: an Open Corpus of Three Trillion Tokens for Language Model
Pretraining Research [140.6355066137106]
われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。
本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。
Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - From Categories to Classifier: Name-Only Continual Learning by Exploring
the Web [125.75085825742092]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。
時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。
提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文 参考訳(メタデータ) (2023-11-19T10:43:43Z) - ETDPC: A Multimodality Framework for Classifying Pages in Electronic
Theses and Dissertations [3.6970591588691355]
電子的論文・論文(ETD)は25年以上にわたって提案され、提唱され、作成されてきた。
ETDPCは、ETDページを13のカテゴリに分類するクロスアテンションネットワークを備えた2ストリームマルチモーダルモデルである。
あらゆるカテゴリーの最先端モデルより優れており、13カテゴリ中9カテゴリのF1は0.84-0.96である。
論文 参考訳(メタデータ) (2023-11-07T16:27:37Z) - A tailored Handwritten-Text-Recognition System for Medieval Latin [40.27709775411759]
バイエルン科学人文科学アカデミーは中世ラテン語辞典のデジタル化を目指している。
この辞書は、低資源言語である中世ラテン語のレムマを参照するレコードカードを含んでいる。
我々は中世ラテン語の辞書に合わせたエンドツーエンドのパイプラインを導入し、補題の検索、抽出、翻訳を行う。
論文 参考訳(メタデータ) (2023-08-18T08:02:52Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - SIMARA: a database for key-value information extraction from full pages [0.1835211348413763]
歴史的手書き文書から情報を取り出すための新しいデータベースを提案する。
コーパスには18世紀から20世紀にかけての6つのシリーズから5,393個のエイズが発見されている。
ヘルプを見つけることは、古いアーカイブを記述するメタデータを含む手書きの文書である。
論文 参考訳(メタデータ) (2023-04-26T15:00:04Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning [89.77347919191774]
法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
論文 参考訳(メタデータ) (2021-04-20T22:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。