論文の概要: PyPotteryInk: One-Step Diffusion Model for Sketch to Publication-ready Archaeological Drawings
- arxiv url: http://arxiv.org/abs/2502.06897v1
- Date: Sun, 09 Feb 2025 14:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:08:49.374720
- Title: PyPotteryInk: One-Step Diffusion Model for Sketch to Publication-ready Archaeological Drawings
- Title(参考訳): PyPotteryInk:1ステップの拡散モデル
- Authors: Lorenzo Cardarelli,
- Abstract要約: PyPotteryInkは、考古学的な陶芸のスケッチを出版可能なインク絵に変換する自動パイプラインだ。
本手法がイタリア原史時代の陶器図面のデータセットに与える影響を実証する。
モデルは、最小限のトレーニングデータで異なる考古学的文脈に適応するように微調整することができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Archaeological pottery documentation traditionally requires a time-consuming manual process of converting pencil sketches into publication-ready inked drawings. I present PyPotteryInk, an open-source automated pipeline that transforms archaeological pottery sketches into standardised publication-ready drawings using a one-step diffusion model. Built on a modified img2img-turbo architecture, the system processes drawings in a single forward pass while preserving crucial morphological details and maintaining archaeologic documentation standards and analytical value. The model employs an efficient patch-based approach with dynamic overlap, enabling high-resolution output regardless of input drawing size. I demonstrate the effectiveness of the approach on a dataset of Italian protohistoric pottery drawings, where it successfully captures both fine details like decorative patterns and structural elements like vessel profiles or handling elements. Expert evaluation confirms that the generated drawings meet publication standards while significantly reducing processing time from hours to seconds per drawing. The model can be fine-tuned to adapt to different archaeological contexts with minimal training data, making it versatile across various pottery documentation styles. The pre-trained models, the Python library and comprehensive documentation are provided to facilitate adoption within the archaeological research community.
- Abstract(参考訳): 考古学的考古学文書は伝統的に、鉛筆のスケッチを出版可能なインクの図面に変換するための時間を要する手作業を必要としている。
PyPotteryInkはオープンソースの自動パイプラインで、考古学的アーキテクストのスケッチを1ステップの拡散モデルを使って標準化された出版物対応の図形に変換する。
修正されたimg2img-turboアーキテクチャに基づいて構築され、システムは1つの前方通過で描画を処理し、重要な形態的詳細を保持し、考古学的な文書標準と分析的価値を維持する。
このモデルは、動的重複を伴う効率的なパッチベースのアプローチを採用し、入力の描画サイズに関係なく高解像度の出力を可能にする。
イタリアの先史時代の陶器の図面のデータセットにこの手法の有効性を実演し、装飾パターンのような細部と、容器のプロファイルや取扱い要素のような構造要素の両方をうまく捉えた。
専門家による評価では、生成された図面は出版基準に合致するが、描画1時間あたりの処理時間を著しく短縮する。
モデルは、最小限のトレーニングデータで異なる考古学的文脈に適応するように微調整できるため、様々な陶器の文書形式を多用することができる。
事前トレーニングされたモデル、Pythonライブラリ、および包括的なドキュメントは、考古学研究コミュニティ内での採用を促進するために提供されている。
関連論文リスト
- PyPotteryLens: An Open-Source Deep Learning Framework for Automated Digitisation of Archaeological Pottery Documentation [0.0]
PyPotteryLensは、考古学的考古学的図面のデジタル化と処理を自動化するフレームワークである。
このフレームワークは、陶器検出および分類タスクにおいて97%以上の精度とリコールを達成する。
手作業に比べて処理時間を最大5倍から20倍に短縮する。
論文 参考訳(メタデータ) (2024-12-16T09:01:32Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - ArcAid: Analysis of Archaeological Artifacts using Drawings [23.906975910478142]
考古学はコンピュータビジョンの興味深い分野である。
ラベル付きデータに不足するだけでなく、高度に混ざったデータに悩まされる。
本稿では,考古学的遺物の画像の分類と検索のための,新しい半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T11:57:01Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - Learning from scarce information: using synthetic data to classify Roman
fine ware pottery [0.0]
そこで本研究では,モデルがまず,元のオブジェクトの特徴を再現した合成データセット上で訓練されるトランスファー学習手法を提案する。
陶器の図面から複製された特徴を取り入れることで、専門家の知識をプロセスに統合することができた。
この最初の訓練の後、モデルは実際の船の写真からのデータで微調整された。
論文 参考訳(メタデータ) (2021-07-03T10:30:46Z) - Key Information Extraction From Documents: Evaluation And Generator [3.878105750489656]
本研究プロジェクトは,文書からの情報抽出のための最先端モデルと比較する。
その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。
境界ボックス回帰デコーダの使用により、長方形に従わないフィールドに対してのみモデル性能が向上する。
論文 参考訳(メタデータ) (2021-06-09T16:12:21Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z) - CoSE: Compositional Stroke Embeddings [52.529172734044664]
本稿では、ストロークベースの描画タスクのような複雑な自由形式構造に対する生成モデルを提案する。
我々のアプローチは、自動補完図のようなインタラクティブなユースケースに適している。
論文 参考訳(メタデータ) (2020-06-17T15:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。