論文の概要: Deep Aramaic: Towards a Synthetic Data Paradigm Enabling Machine
Learning in Epigraphy
- arxiv url: http://arxiv.org/abs/2310.07310v1
- Date: Wed, 11 Oct 2023 08:47:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 23:34:04.458518
- Title: Deep Aramaic: Towards a Synthetic Data Paradigm Enabling Machine
Learning in Epigraphy
- Title(参考訳): Deep Aramaic: 画像における機械学習の合成データパラダイムの実現に向けて
- Authors: Andrei C. Aioanei, Regine Hunziker-Rodewald, Konstantin Klein, Dominik
L. Michels
- Abstract要約: 我々の研究は、古アラマ文字に合わせて合成訓練データを生成する革新的な手法を開拓した。
我々のパイプラインは、写真リアリスティックなアラマ文字の碑文を合成し、テクスチュラルな特徴、照明、損傷、拡張を取り入れている。
この包括的なコーパスは、高度に劣化したアラマ文字を分類するために残留ニューラルネットワーク(ResNet)をトレーニングするための堅牢なデータ量を提供する。
- 参考スコア(独自算出の注目度): 6.281814525187968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Epigraphy increasingly turns to modern artificial intelligence (AI)
technologies such as machine learning (ML) for extracting insights from ancient
inscriptions. However, scarce labeled data for training ML algorithms severely
limits current techniques, especially for ancient scripts like Old Aramaic. Our
research pioneers an innovative methodology for generating synthetic training
data tailored to Old Aramaic letters. Our pipeline synthesizes photo-realistic
Aramaic letter datasets, incorporating textural features, lighting, damage, and
augmentations to mimic real-world inscription diversity. Despite minimal real
examples, we engineer a dataset of 250,000 training and 25,000 validation
images covering the 22 letter classes in the Aramaic alphabet. This
comprehensive corpus provides a robust volume of data for training a residual
neural network (ResNet) to classify highly degraded Aramaic letters. The ResNet
model demonstrates high accuracy in classifying real images from the 8th
century BCE Hadad statue inscription. Additional experiments validate
performance on varying materials and styles, proving effective generalization.
Our results validate the model's capabilities in handling diverse real-world
scenarios, proving the viability of our synthetic data approach and avoiding
the dependence on scarce training data that has constrained epigraphic
analysis. Our innovative framework elevates interpretation accuracy on damaged
inscriptions, thus enhancing knowledge extraction from these historical
resources.
- Abstract(参考訳): エピノグラフィーは、古代の碑文から洞察を抽出する機械学習(ML)のような現代の人工知能(AI)技術に変わりつつある。
しかし、MLアルゴリズムをトレーニングするためのラベル付きデータが少ないため、特に古アラマ文字のような古代のスクリプトでは、現在のテクニックを著しく制限している。
我々の研究は、古アラマ文字に合わせて合成訓練データを生成する革新的な手法を開拓した。
本パイプラインは,実世界の碑文の多様性を模倣するために,テクスチャの特徴,ライティング,損傷,拡張を組み込んだ,フォトリアリスティックなアラム文字データセットを合成する。
最小の実例にもかかわらず、アラム文字アルファベットの22文字クラスをカバーする2550,000のトレーニングと25,000の検証画像のデータセットを設計しました。
この包括的コーパスは、高度に劣化したアラム文字を分類するために残留ニューラルネットワーク(resnet)を訓練するための堅牢なデータ量を提供する。
ResNetモデルは、紀元前8世紀のハダッドの彫像碑文から実際の像を分類する際に高い精度を示す。
さらなる実験により、様々な材料やスタイルのパフォーマンスが検証され、効果的な一般化が証明された。
本研究は,様々な実世界のシナリオを処理し,合成データアプローチの有効性を証明し,エピグラフィック解析を制約した不足したトレーニングデータへの依存を回避し,モデルの能力を検証する。
当社の革新的な枠組みは,損傷した碑文の解釈精度を高め,これらの歴史的資料からの知識抽出を促進する。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - Improving Text Generation on Images with Synthetic Captions [2.1175632266708733]
SDXLやSD 1.5のような潜伏拡散モデルは、現実的な画像を生成する上で重要な能力を示している。
本稿では,SDXLを大規模データセット上でのトレーニングに要しない,低コストなアプローチを提案する。
提案手法は,異なるシナリオにおけるテキスト生成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-06-01T17:27:34Z) - StyloAI: Distinguishing AI-Generated Content with Stylometric Analysis [0.0]
本研究では,データ駆動型モデルであるStyloAIを提案する。
StyloAIは、AuTextificationデータセットとUltra Educationデータセットのテストセットで、それぞれ81%と98%の精度を達成している。
論文 参考訳(メタデータ) (2024-05-16T14:28:01Z) - AI-Generated Images as Data Source: The Dawn of Synthetic Era [61.879821573066216]
生成AIは、現実世界の写真によく似た合成画像を作成する可能性を解き放った。
本稿では、これらのAI生成画像を新しいデータソースとして活用するという革新的な概念を探求する。
実際のデータとは対照的に、AI生成データには、未整合のアブリダンスやスケーラビリティなど、大きなメリットがある。
論文 参考訳(メタデータ) (2023-10-03T06:55:19Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - AGTGAN: Unpaired Image Translation for Photographic Ancient Character
Generation [27.77329906930072]
本稿では,AGTGAN と呼ばれる非教師付き生成敵ネットワークを提案する。
グローバルなグリフ形状と局所的なグリフ形状のモデリングにより,多様なグリフと現実的なテクスチャを持つキャラクタを生成することができる。
得られた画像から,最大写真オラクル骨キャラクタデータセットを用いた実験により,分類精度を最大16.34%向上させることができた。
論文 参考訳(メタデータ) (2023-03-13T11:18:41Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。