Fugu-MT 論文翻訳(概要): Decision Support to Crowdsourcing for Annotation and Transcription of Ancient Documents: The RECITAL Workshop

論文の概要: Decision Support to Crowdsourcing for Annotation and Transcription of Ancient Documents: The RECITAL Workshop

arxiv url: http://arxiv.org/abs/2305.18828v1
Date: Tue, 30 May 2023 08:23:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 17:29:19.899049
Title: Decision Support to Crowdsourcing for Annotation and Transcription of Ancient Documents: The RECITAL Workshop
Title（参考訳）: 古文書の注釈と転写のためのクラウドソーシングのための意思決定支援:RECITALワークショップ
Authors: Olivier Aubert (LS2N, Nantes Univ, LS2N - \'equipe DUKe), Benjamin Hervy (CFV, Nantes Univ, LS2N - \'equipe DUKe), Guillaume Raschia (LINA, Nantes Univ, LS2N - \'equipe DUKe), Fran\c{c}oise Rubellin (LAMO, Nantes Univ)
Abstract要約: 我々は,Com'edie-Franc CaiseとCom'edie-Italienneについてより深く学ぶことを目指している。我々は、未公開かつ未公開のリソースを大量に採用しており、フランスのビブリオテケ国立図書館で利用可能な、63の日替りレジスタの27,544ページを保有しています。クラウドソーシングプラットフォームであるRECITALを開発した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the 18th century in Paris, only two public theatres could officially perform comedies: the Com{\'e}die-Fran{\c c}aise, and the Com{\'e}die-Italienne. The latter was much less well known. By studying a century of accounting registers, we aim to learn more about its successful plays, its actors, musicians, set designers, and all the small trades necessary for its operation, its administration, logistics and finances. To this end, we employ a mass of untapped and unpublished resources, the 27,544 pages of 63 daily registers available at the Biblioth{\`e}que Nationale de France (BnF). And we take a decidedly fresh look at emerging forms of creation and changes in the entertainmenteconomy. We developed the crowdsourcing platform RECITAL to collect and index the data from theregisters, following an emerging trend in Digital Humanities. RECITAL is built upon the ScribeAPI framework and it offers a fully-fledged web application to classify the pages, annotate with marks and tags, transcribe the indexed marks and even to verify the previous transcripts. We also describe a multi-level data model and to develop a series of monitoring anddecision tools to support crowdsourced data management up to their definitive form.
Abstract（参考訳）: 18世紀のパリでは、公式の喜劇を上演できる劇場は2つしかなかった: "com{\'e}die-fran{\c c}aise" と "com{\'e}die-italienne" である。後者はあまり知られていなかった。一世紀にわたる会計簿の研究により、その成功作、俳優、音楽家、セットデザイナー、そしてその運営、管理、物流、財務に必要なすべての小さな取引についてより深く学ぶことを目指している。この目的のために我々は、フランス国立図書館(bnf)で利用可能な63の日次レジスターのうち27,544ページという、未出版のリソースを大量に採用している。そして私たちは、エンタテインメント経済における新たな創造形態と変化を、明確に見直す。クラウドソーシングプラットフォームrecitalを開発したのは、デジタルヒューマニティの新たなトレンドに従って、テリジストからデータを収集し、インデクシングするためのものだ。 RECITALはScribeAPIフレームワーク上に構築されており、ページの分類、マークとタグの注釈付け、インデックス付きマークの書き起こし、さらには以前の書き起こしの検証のための、本格的なWebアプリケーションを提供している。また,クラウドソーシングデータ管理を支援するため,マルチレベルデータモデルについて記述し,一連のモニタリング・意思決定ツールを開発する。

関連論文リスト

From Show Programmes to Data: Designing a Workflow to Make Performing Arts Ephemera Accessible Through Language Models [0.3331620034375478]
我々は、視覚言語モデルが生来のデジタルおよびデジタル化されたプログラムを正確に解析し、転写する方法を示す。我々は、形式と意味の両方の報酬で強化学習を用いて推論モデル(POntAvignon)を訓練する。このアプローチはRDFトリプルの自動生成を可能にし、既存の知識グラフとのアライメントをサポートする。
論文参考訳（メタデータ） (2025-12-08T11:27:10Z)
MajinBook: An open catalogue of digital world literature with likes [2.6547708221528987]
MajinBookは、シャドウライブラリの使用を容易にするために設計されたオープンカタログである。我々は3世紀にわたる英語の書籍に539,000点を超える高精度のコーパスを作成した。
論文参考訳（メタデータ） (2025-11-14T15:44:27Z)
A Language Model-Driven Semi-Supervised Ensemble Framework for Illicit Market Detection Across Deep/Dark Web and Social Platforms [9.521604326086608]
本稿では,微調整言語モデルと半教師付きアンサンブル学習戦略を組み合わせた階層型分類フレームワークを提案する。深層WebページやTelegramチャネル,Subreddits,Pastebinペーストから,ドメイン固有のデータを微調整したModernBERTを用いて意味表現を抽出する。文書構造、Bitcoinアドレス、Eメール、IP、メタデータなどの組み込みパターンなど、手動で設計した機能を導入しています。
論文参考訳（メタデータ） (2025-07-19T05:54:52Z)
OpusLM: A Family of Open Unified Speech Language Models [56.14140121061921]
OpusLMは、213K時間の音声テキストペアと292Bのテキスト専用トークンで継続的に事前トレーニングされている。本稿では,トークン化,マルチストリーム言語モデル,マルチステージトレーニング戦略に関するSpeechLMの設計について述べる。
論文参考訳（メタデータ） (2025-06-21T06:30:59Z)
Graphy'our Data: Towards End-to-End Modeling, Exploring and Generating Report from Raw Data [5.752510084651565]
Graphyは、データモデリング、探索、高品質なレポート生成を自動化するエンドツーエンドプラットフォームである。文献調査のシナリオをどのように促進するかを示す,5万を越える論文(参考資料を含む)の事前スクラップグラフを紹介します。
論文参考訳（メタデータ） (2025-02-24T06:10:49Z)
Making History Readable [0.0]
このポスターは、手書きの手紙、新聞、デジタル化された地形図に焦点を当てた3つのコレクションをハイライトしている。各コレクションで課題を議論し、それに対処するためのアプローチの詳細を述べます。提案手法は,これらのコレクションの内容を検索し,ナビゲートしやすくすることで,ユーザエクスペリエンスを向上させることを目的としている。
論文参考訳（メタデータ） (2024-11-26T17:06:58Z)
Seventeenth-Century Spanish American Notary Records for Fine-Tuning Spanish Large Language Models [2.433690251078502]
我々の資料は、アルゼンチン国立公文書館から入手した17世紀の手書きの記譜集である。我々のコレクションは、分類やマスキング言語モデリングといったタスクのために、スペイン語のLLMを微調整するのに利用できることを実証する。私たちのリソースは、過去のテキスト分析の貴重なリソースであり、GitHubで公開されています。
論文参考訳（メタデータ） (2024-06-09T14:54:22Z)
The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses [3.056890324309791]
本稿では1836年から1936年までのフランスの国勢調査リストから情報を抽出するための完全な処理ワークフローを提案する。自動手書き表認識を用いて,これらの表に含まれる全ての情報を抽出することを目的としている。抽出されたデータは、デモグラファーによって、時間とともに社会の変化を分析し、フランスの経済と社会構造に対する理解を著しく改善するために使用される。
論文参考訳（メタデータ） (2024-04-29T13:57:02Z)
Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines [1.174020933567308]
クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
論文参考訳（メタデータ） (2024-04-09T08:08:03Z)
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文参考訳（メタデータ） (2024-01-31T20:29:50Z)
From Categories to Classifiers: Name-Only Continual Learning by Exploring the Web [118.67589717634281]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文参考訳（メタデータ） (2023-11-19T10:43:43Z)
MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文参考訳（メタデータ） (2023-06-18T12:56:46Z)
Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文参考訳（メタデータ） (2022-11-15T19:42:27Z)
Digital Editions as Distant Supervision for Layout Analysis of Printed Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。 DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文参考訳（メタデータ） (2021-12-23T16:51:53Z)
\textit{StateCensusLaws.org}: A Web Application for Consuming and Annotating Legal Discourse Learning [89.77347919191774]
法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
論文参考訳（メタデータ） (2021-04-20T22:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。