論文の概要: A Reproducible Workflow for Scraping, Structuring, and Segmenting Legacy Archaeological Artifact Images
- arxiv url: http://arxiv.org/abs/2512.11817v1
- Date: Thu, 27 Nov 2025 14:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.690976
- Title: A Reproducible Workflow for Scraping, Structuring, and Segmenting Legacy Archaeological Artifact Images
- Title(参考訳): スクラップ, 構造化, セグメンテーションのための再現可能なワークフロー
- Authors: Juan Palomeque-Gonzalez,
- Abstract要約: 考古学データサービス(ADS)による下部中石器時代の手軸と両面の収集に焦点を当てたケーススタディ
これに対処するため、ADS Terms of Useと倫理的スクラップガイドラインを尊重しながら、すべてのレコードページを検索し、メタデータを抽出し、利用可能な画像をダウンロードするWebスクレイピングスクリプトが開発された。
オリジナルのイメージは再配布されておらず、マスク、アウトライン、アノテーションなどの派生製品のみが共有されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This technical note presents a reproducible workflow for converting a legacy archaeological image collection into a structured and segmentation ready dataset. The case study focuses on the Lower Palaeolithic hand axe and biface collection curated by the Archaeology Data Service (ADS), a dataset that provides thousands of standardised photographs but no mechanism for bulk download or automated processing. To address this, two open source tools were developed: a web scraping script that retrieves all record pages, extracts associated metadata, and downloads the available images while respecting ADS Terms of Use and ethical scraping guidelines; and an image processing pipeline that renames files using UUIDs, generates binary masks and bounding boxes through classical computer vision, and stores all derived information in a COCO compatible Json file enriched with archaeological metadata. The original images are not redistributed, and only derived products such as masks, outlines, and annotations are shared. Together, these components provide a lightweight and reusable approach for transforming web based archaeological image collections into machine learning friendly formats, facilitating downstream analysis and contributing to more reproducible research practices in digital archaeology.
- Abstract(参考訳): この技術的注記は、旧来の考古学的画像コレクションを構造化されたセグメンテーション可能なデータセットに変換する再現可能なワークフローを提示する。
このケーススタディは、何千枚もの標準化された写真を提供するデータセットであるArchiaeology Data Service(ADS)がキュレートした下部の古石器時代の手軸と両面の収集に焦点を当てているが、大量ダウンロードや自動処理のメカニズムはない。
この問題を解決するために、すべてのレコードページを検索し、メタデータを抽出し、ADS Terms of Useと倫理的スクラップガイドラインを尊重しながら利用可能なイメージをダウンロードするWebスクレイピングスクリプトと、UUIDを使用してファイルをリネームし、古典的なコンピュータビジョンを通じてバイナリマスクとバウンディングボックスを生成し、派生した情報をCO互換のJsonファイルに格納する画像処理パイプラインの2つのオープンソースツールが開発された。
オリジナルのイメージは再配布されておらず、マスク、アウトライン、アノテーションなどの派生製品のみが共有されている。
これらのコンポーネントは共に、Webベースの考古学的イメージコレクションを機械学習フレンドリなフォーマットに変換するための軽量で再利用可能なアプローチを提供し、下流の分析を容易にし、デジタル考古学におけるより再現可能な研究プラクティスに寄与する。
関連論文リスト
- Domain-RAG: Retrieval-Guided Compositional Image Generation for Cross-Domain Few-Shot Object Detection [132.63712430690856]
Cross-Domain Few-Shot Object Detection (CD-FSOD) は、未確認領域の少数のラベル付きサンプルで新しいオブジェクトを検出することを目的としている。
データ拡張と生成手法は、数ショットの学習において有望であるが、CD-FSODの有効性は未だ不明である。
我々は,CD-FSODに適した学習不要で検索誘導型合成画像生成フレームワークであるDomain-RAGを提案する。
論文 参考訳(メタデータ) (2025-06-06T08:41:09Z) - RAWMamba: Unified sRGB-to-RAW De-rendering With State Space Model [52.250939617273744]
本稿では, sRGB-to-RAWデレンダリングのための統一フレームワークであるRAWMambaを提案する。
RAWMambaのコアはUnified Metadata Embedding (UME)モジュールである。
Local Tone-Aware Mambaモジュールは、メタデータの効果的なグローバルな伝搬を可能にするために、長距離依存関係をキャプチャする。
論文 参考訳(メタデータ) (2024-11-18T16:45:44Z) - In-Context LoRA for Diffusion Transformers [49.288489286276146]
テキスト・ツー・イメージのDiTは、チューニングなしでテキスト内生成を効果的に行うことができることを示す。
我々は、我々のモデル In-Context LoRA (IC-LoRA) を命名する。
我々のパイプラインは、プロンプトにより忠実な高忠実度画像セットを生成する。
論文 参考訳(メタデータ) (2024-10-31T09:45:00Z) - MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T14:58:00Z) - A Multimodal Approach for Cross-Domain Image Retrieval [5.5547914920738]
クロスドメイン画像検索(Cross-Domain Image Retrieval, CDIR)は、コンピュータビジョンにおける課題である。
本稿では、事前学習された視覚言語モデルを活用することで、テキストコンテキストを取り入れた新しい教師なしのCDIRアプローチを提案する。
提案手法は,画像キャプションをドメインに依存しない中間表現として用いる。
論文 参考訳(メタデータ) (2024-03-22T12:08:16Z) - AutArch: An AI-assisted workflow for object detection and automated recording in archaeological catalogues [35.253552063074366]
本稿では,遺産として利用可能な考古学的発見カタログからデータを収集するための新しいワークフローを紹介する。
このワークフローは、自動検索されたデータの検証と調整を行う画像処理、オブジェクト検出、インタラクティブな手段をサポートするカスタムソフトウェア(AutArch)に依存している。
我々は、人工知能(AI)を、物体の検出と分類のためのニューラルネットワークの観点でワークフローに統合する。
論文 参考訳(メタデータ) (2023-11-29T17:24:04Z) - Automatic Recognition of Learning Resource Category in a Digital Library [6.865460045260549]
本稿では,文書画像分類のためのヘテロジニアス学習資源(HLR)データセットを提案する。
このアプローチでは、個々の学習リソースを構成文書イメージ(シート)に分解する。
これらの画像はOCRツールを通じて処理され、テキスト表現を抽出する。
論文 参考訳(メタデータ) (2023-11-28T07:48:18Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。