論文の概要: PHD: Pixel-Based Language Modeling of Historical Documents
- arxiv url: http://arxiv.org/abs/2310.18343v1
- Date: Sun, 22 Oct 2023 08:45:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-05 13:53:20.891368
- Title: PHD: Pixel-Based Language Modeling of Historical Documents
- Title(参考訳): PHD: 歴史的文書のピクセルベース言語モデリング
- Authors: Nadav Borenstein, Phillip Rust, Desmond Elliott, Isabelle Augenstein
- Abstract要約: 実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
- 参考スコア(独自算出の注目度): 55.75201940642297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The digitisation of historical documents has provided historians with
unprecedented research opportunities. Yet, the conventional approach to
analysing historical documents involves converting them from images to text
using OCR, a process that overlooks the potential benefits of treating them as
images and introduces high levels of noise. To bridge this gap, we take
advantage of recent advancements in pixel-based language models trained to
reconstruct masked patches of pixels instead of predicting token distributions.
Due to the scarcity of real historical scans, we propose a novel method for
generating synthetic scans to resemble real historical documents. We then
pre-train our model, PHD, on a combination of synthetic scans and real
historical newspapers from the 1700-1900 period. Through our experiments, we
demonstrate that PHD exhibits high proficiency in reconstructing masked image
patches and provide evidence of our model's noteworthy language understanding
capabilities. Notably, we successfully apply our model to a historical QA task,
highlighting its usefulness in this domain.
- Abstract(参考訳): 歴史文書のデジタル化は歴史家に前例のない研究機会を与えた。
しかし、従来の歴史文書の分析手法では、画像からテキストへocrで変換するが、これは画像として扱うことの利点を見逃し、高いレベルのノイズをもたらすプロセスである。
このギャップを埋めるために、トークン分布を予測する代わりに、マスクしたピクセルのパッチを再構築するよう訓練された画素ベース言語モデルの最近の進歩を利用する。
実史スキャンが不足していることから,実史文書に類似した合成スキャンを生成する新しい手法を提案する。
1700-1900年代には,本モデルであるPHDを,合成スキャンと実際の歴史新聞の組み合わせで事前訓練した。
実験により,PHDはマスク付き画像パッチの再構築に高い習熟度を示し,本モデルで注目すべき言語理解能力を示す。
特に、我々のモデルを歴史的QAタスクに適用し、この領域での有用性を強調した。
関連論文リスト
- Knowledge-Aware Artifact Image Synthesis with LLM-Enhanced Prompting and
Multi-Source Supervision [5.517240672957627]
本稿では,失った歴史的物体を視覚的形状に正確に反映する,知識を意識した新しい人工物画像合成手法を提案する。
既存の手法と比較して,提案手法は文書に含まれる暗黙の細部や歴史的知識とよく一致した高品質なアーティファクト画像を生成する。
論文 参考訳(メタデータ) (2023-12-13T11:03:07Z) - Blind Dates: Examining the Expression of Temporality in Historical
Photographs [57.07335632641355]
マルチモーダル言語とビジョンモデルであるCLIPのオープンソース実装であるOpenCLIPを用いて、画像の日付を調査する。
我々は1950年から1999年までの39,866枚のグレースケールの歴史的プレス写真を含むtextitDe Boer Scene Detectionデータセットを使用している。
解析の結果、バス、車、猫、犬、そして人々が写っている画像はより正確に年代付けされており、時間的マーカーの存在が示唆されている。
論文 参考訳(メタデータ) (2023-10-10T13:51:24Z) - Prompt me a Dataset: An investigation of text-image prompting for
historical image dataset creation using foundation models [0.9065034043031668]
基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案する。
我々は,テキスト画像のプロンプトと,それらが複雑度の異なる人文科学データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2023-09-04T15:37:03Z) - Continual Face Forgery Detection via Historical Distribution Preserving [88.66313037412846]
CFFD(Continuous Face Forgery Detection)に焦点をあてる。
CFFDは、以前の攻撃を忘れずに、新しい偽造攻撃から効率的に学習することを目指している。
評価実験の結果,提案手法は最先端の競合よりも優れていた。
論文 参考訳(メタデータ) (2023-08-11T16:37:31Z) - The Effects of Character-Level Data Augmentation on Style-Based Dating
of Historical Manuscripts [5.285396202883411]
本稿では,古写本の年代測定におけるデータ拡張の影響について考察する。
リニアサポートベクトルマシンは、歴史的写本から抽出されたテクスチャおよびグラファイムに基づく特徴に基づいて、k倍のクロスバリデーションで訓練された。
その結果, 付加データを用いたトレーニングモデルは, 累積スコアの1%~3%の古写本の性能を向上させることがわかった。
論文 参考訳(メタデータ) (2022-12-15T15:55:44Z) - Pattern Spotting and Image Retrieval in Historical Documents using Deep
Hashing [60.67014034968582]
本稿では,歴史文書のデジタルコレクションにおける画像検索とパターンスポッティングのためのディープラーニング手法を提案する。
ディープラーニングモデルは、実数値またはバイナリコード表現を提供する2つの異なるバリエーションを考慮して、特徴抽出に使用される。
また,提案手法により検索時間を最大200倍に短縮し,関連する作業と比較してストレージコストを最大6,000倍に削減する。
論文 参考訳(メタデータ) (2022-08-04T01:39:37Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Image-based material analysis of ancient historical documents [5.285396202883411]
本研究は、有名な歴史資料集『死海巻』の画像を用いて、写本の資料を分類する新しい方法を提案する。
多数決プロセスの変換を用いた二項分類システムは, この分類作業に有効であることが示されている。
このパイロットスタディは、パーチメントまたはパピルス材料から生成される限られた量の原稿に対して、最大97%の分類成功率を示す。
論文 参考訳(メタデータ) (2022-03-02T11:39:22Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - Lacuna Reconstruction: Self-supervised Pre-training for Low-Resource
Historical Document Transcription [25.76860672652937]
また,スクラッチから訓練した同じ教師付きモデルに対して,30行の画像書き起こしで認識精度を有意に向上させることを示した。
我々のマスク付き言語モデルスタイルの事前学習戦略では、モデルが同じ行内からサンプリングされた邪魔者から真のマスク付き視覚表現を識別できるように訓練され、堅牢な文脈化された言語表現の学習が促進される。
論文 参考訳(メタデータ) (2021-12-16T08:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。