論文の概要: Decision Support to Crowdsourcing for Annotation and Transcription of
Ancient Documents: The RECITAL Workshop
- arxiv url: http://arxiv.org/abs/2305.18828v1
- Date: Tue, 30 May 2023 08:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:29:19.899049
- Title: Decision Support to Crowdsourcing for Annotation and Transcription of
Ancient Documents: The RECITAL Workshop
- Title(参考訳): 古文書の注釈と転写のためのクラウドソーシングのための意思決定支援:RECITALワークショップ
- Authors: Olivier Aubert (LS2N, Nantes Univ, LS2N - \'equipe DUKe), Benjamin
Hervy (CFV, Nantes Univ, LS2N - \'equipe DUKe), Guillaume Raschia (LINA,
Nantes Univ, LS2N - \'equipe DUKe), Fran\c{c}oise Rubellin (LAMO, Nantes
Univ)
- Abstract要約: 我々は,Com'edie-Franc CaiseとCom'edie-Italienneについてより深く学ぶことを目指している。
我々は、未公開かつ未公開のリソースを大量に採用しており、フランスのビブリオテケ国立図書館で利用可能な、63の日替りレジスタの27,544ページを保有しています。
クラウドソーシングプラットフォームであるRECITALを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the 18th century in Paris, only two public theatres could officially
perform comedies: the Com{\'e}die-Fran{\c c}aise, and the
Com{\'e}die-Italienne. The latter was much less well known. By studying a
century of accounting registers, we aim to learn more about its successful
plays, its actors, musicians, set designers, and all the small trades necessary
for its operation, its administration, logistics and finances. To this end, we
employ a mass of untapped and unpublished resources, the 27,544 pages of 63
daily registers available at the Biblioth{\`e}que Nationale de France (BnF).
And we take a decidedly fresh look at emerging forms of creation and changes in
the entertainmenteconomy. We developed the crowdsourcing platform RECITAL to
collect and index the data from theregisters, following an emerging trend in
Digital Humanities. RECITAL is built upon the ScribeAPI framework and it offers
a fully-fledged web application to classify the pages, annotate with marks and
tags, transcribe the indexed marks and even to verify the previous transcripts.
We also describe a multi-level data model and to develop a series of monitoring
anddecision tools to support crowdsourced data management up to their
definitive form.
- Abstract(参考訳): 18世紀のパリでは、公式の喜劇を上演できる劇場は2つしかなかった: "com{\'e}die-fran{\c c}aise" と "com{\'e}die-italienne" である。
後者はあまり知られていなかった。
一世紀にわたる会計簿の研究により、その成功作、俳優、音楽家、セットデザイナー、そしてその運営、管理、物流、財務に必要なすべての小さな取引についてより深く学ぶことを目指している。
この目的のために我々は、フランス国立図書館(bnf)で利用可能な63の日次レジスターのうち27,544ページという、未出版のリソースを大量に採用している。
そして私たちは、エンタテインメント経済における新たな創造形態と変化を、明確に見直す。
クラウドソーシングプラットフォームrecitalを開発したのは、デジタルヒューマニティの新たなトレンドに従って、テリジストからデータを収集し、インデクシングするためのものだ。
RECITALはScribeAPIフレームワーク上に構築されており、ページの分類、マークとタグの注釈付け、インデックス付きマークの書き起こし、さらには以前の書き起こしの検証のための、本格的なWebアプリケーションを提供している。
また,クラウドソーシングデータ管理を支援するため,マルチレベルデータモデルについて記述し,一連のモニタリング・意思決定ツールを開発する。
関連論文リスト
- Making History Readable [0.0]
このポスターは、手書きの手紙、新聞、デジタル化された地形図に焦点を当てた3つのコレクションをハイライトしている。
各コレクションで課題を議論し、それに対処するためのアプローチの詳細を述べます。
提案手法は,これらのコレクションの内容を検索し,ナビゲートしやすくすることで,ユーザエクスペリエンスを向上させることを目的としている。
論文 参考訳(メタデータ) (2024-11-26T17:06:58Z) - Seventeenth-Century Spanish American Notary Records for Fine-Tuning Spanish Large Language Models [2.433690251078502]
我々の資料は、アルゼンチン国立公文書館から入手した17世紀の手書きの記譜集である。
我々のコレクションは、分類やマスキング言語モデリングといったタスクのために、スペイン語のLLMを微調整するのに利用できることを実証する。
私たちのリソースは、過去のテキスト分析の貴重なリソースであり、GitHubで公開されています。
論文 参考訳(メタデータ) (2024-06-09T14:54:22Z) - The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses [3.056890324309791]
本稿では1836年から1936年までのフランスの国勢調査リストから情報を抽出するための完全な処理ワークフローを提案する。
自動手書き表認識を用いて,これらの表に含まれる全ての情報を抽出することを目的としている。
抽出されたデータは、デモグラファーによって、時間とともに社会の変化を分析し、フランスの経済と社会構造に対する理解を著しく改善するために使用される。
論文 参考訳(メタデータ) (2024-04-29T13:57:02Z) - Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines [1.174020933567308]
クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。
現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。
本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
論文 参考訳(メタデータ) (2024-04-09T08:08:03Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - From Categories to Classifiers: Name-Only Continual Learning by Exploring the Web [118.67589717634281]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。
時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。
提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文 参考訳(メタデータ) (2023-11-19T10:43:43Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning [89.77347919191774]
法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
論文 参考訳(メタデータ) (2021-04-20T22:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。