論文の概要: Automatic Identification of Types of Alterations in Historical
Manuscripts
- arxiv url: http://arxiv.org/abs/2003.09136v3
- Date: Wed, 4 Nov 2020 15:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 21:50:26.892417
- Title: Automatic Identification of Types of Alterations in Historical
Manuscripts
- Title(参考訳): 歴史写本における変遷の種類の自動同定
- Authors: David Lassner (TUB), Anne Baillot (3L.AM), Sergej Dogadov (TUB),
Klaus-Robert M\"uller (TUB), Shinichi Nakajima (TUB)
- Abstract要約: 文書の変更を分類するための機械学習に基づく手法を提案する。
特に、コンテンツ関連変更を分類する新しい確率モデルを提案する。
ラベルのないデータについて、 alterLDA を適用すると、著者、編集者、その他の原稿寄稿者の変更行動に関する興味深い新しい洞察がもたらされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alterations in historical manuscripts such as letters represent a promising
field of research. On the one hand, they help understand the construction of
text. On the other hand, topics that are being considered sensitive at the time
of the manuscript gain coherence and contextuality when taking alterations into
account, especially in the case of deletions. The analysis of alterations in
manuscripts, though, is a traditionally very tedious work. In this paper, we
present a machine learning-based approach to help categorize alterations in
documents. In particular, we present a new probabilistic model (Alteration
Latent Dirichlet Allocation, alterLDA in the following) that categorizes
content-related alterations. The method proposed here is developed based on
experiments carried out on the digital scholarly edition Berlin Intellectuals,
for which alterLDA achieves high performance in the recognition of alterations
on labelled data. On unlabelled data, applying alterLDA leads to interesting
new insights into the alteration behavior of authors, editors and other
manuscript contributors, as well as insights into sensitive topics in the
correspondence of Berlin intellectuals around 1800. In addition to the findings
based on the digital scholarly edition Berlin Intellectuals, we present a
general framework for the analysis of text genesis that can be used in the
context of other digital resources representing document variants. To that end,
we present in detail the methodological steps that are to be followed in order
to achieve such results, giving thereby a prime example of an Machine Learning
application the Digital Humanities.
- Abstract(参考訳): 書状などの歴史写本の変質は、有望な研究分野である。
一方、それらはテキストの構築を理解するのに役立ちます。
一方、写本の時点でセンシティブであると考えられるトピックは、特に削除の場合において、変更を考慮に入れた場合には、一貫性と文脈性がもたらされる。
しかし、写本の改変の分析は伝統的に非常に退屈な作業である。
本稿では,文書の変更を分類する機械学習に基づく手法を提案する。
特に、コンテンツに関連する変化を分類する新しい確率モデル(Alteration Latent Dirichlet Allocation, alterLDA in the following)を提案する。
本手法は,ラベル付きデータに対する変更認識において高い性能を達成できる,デジタル学術版Berlin Intellectualsで実施した実験に基づいて,提案手法を開発した。
ラベルのないデータについて、 alterLDA を適用することで、1800年頃のベルリンの知識人関係におけるセンシティブなトピックに関する洞察だけでなく、著者、編集者、その他の原稿寄稿者の変更行動に関する興味深い新たな洞察がもたらされる。
本研究は,学術誌Berlin Intellectualsに基づく研究結果に加えて,文書の変種を表す他のデジタルリソースの文脈で使用可能なテキスト生成解析のための一般的な枠組みを提示する。
そこで我々は,このような結果を得るために追従すべき方法論的手順を詳細に提示し,機械学習アプリケーションであるDigital Humanitiesの素例となる。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - CASIMIR: A Corpus of Scientific Articles enhanced with Multiple Author-Integrated Revisions [7.503795054002406]
本稿では,学術論文の執筆過程の改訂段階について,原文資料を提案する。
この新しいデータセットはCASIMIRと呼ばれ、OpenReviewの15,646の科学論文の改訂版とピアレビューを含んでいる。
論文 参考訳(メタデータ) (2024-03-01T03:07:32Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Stylometry Analysis of Multi-authored Documents for Authorship and
Author Style Change Detection [2.117778717665161]
本稿では, 単一文書と複数文書の分類 (i) 単一変更検出 (ii) 単一変更検出 (iii) 複数文書における複数著者切替検出 (iii) の3つの課題について検討する。
我々は,いくつかの最先端自然言語処理(NLP)アルゴリズムと重み付け最適化技術を統合したメリットベース融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-12T18:36:41Z) - Don't lose the message while paraphrasing: A study on content preserving
style transfer [61.38460184163704]
スタイル伝達研究の現実的な応用には,コンテンツ保存が不可欠である。
形式性伝達領域の例において、様々なスタイル転送モデルを比較する。
我々は,スタイル伝達のための最先端技術について,精密な比較研究を行っている。
論文 参考訳(メタデータ) (2023-08-17T15:41:08Z) - To Revise or Not to Revise: Learning to Detect Improvable Claims for
Argumentative Writing Support [20.905660642919052]
特定の修正が必要な議論的クレームを特定するための主な課題について検討する。
本稿では,リビジョン距離に基づく新しいサンプリング戦略を提案する。
文脈情報とドメイン知識を用いることで、予測結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2023-05-26T10:19:54Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - Compression, Transduction, and Creation: A Unified Framework for
Evaluating Natural Language Generation [85.32991360774447]
自然言語生成(NLG)は幅広いタスクにまたがっており、それぞれが特定の目的のために機能する。
NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。
我々は,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。
論文 参考訳(メタデータ) (2021-09-14T01:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。