論文の概要: Position Paper: Metadata Enrichment Model: Integrating Neural Networks and Semantic Knowledge Graphs for Cultural Heritage Applications
- arxiv url: http://arxiv.org/abs/2505.23543v1
- Date: Thu, 29 May 2025 15:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.936441
- Title: Position Paper: Metadata Enrichment Model: Integrating Neural Networks and Semantic Knowledge Graphs for Cultural Heritage Applications
- Title(参考訳): 位置紙: メタデータ豊か化モデル: 文化遺産へのニューラルネットワークと意味知識グラフの統合
- Authors: Jan Ignatowicz, Krzysztof Kutt, Grzegorz J. Nalepa,
- Abstract要約: 本稿では,メタデータをデジタル化するための概念的フレームワークであるMetadata Enrichment Model(MEM)を提案する。
MEMは、微調整されたコンピュータビジョンモデル、大きな言語モデル、構造化知識グラフを組み合わせる。
我々はジャギロニアデジタル図書館からデジタル化されたインキュナブラのデータセットをリリースする。
- 参考スコア(独自算出の注目度): 8.732274235941974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The digitization of cultural heritage collections has opened new directions for research, yet the lack of enriched metadata poses a substantial challenge to accessibility, interoperability, and cross-institutional collaboration. In several past years neural networks models such as YOLOv11 and Detectron2 have revolutionized visual data analysis, but their application to domain-specific cultural artifacts - such as manuscripts and incunabula - remains limited by the absence of methodologies that address structural feature extraction and semantic interoperability. In this position paper, we argue, that the integration of neural networks with semantic technologies represents a paradigm shift in cultural heritage digitization processes. We present the Metadata Enrichment Model (MEM), a conceptual framework designed to enrich metadata for digitized collections by combining fine-tuned computer vision models, large language models (LLMs) and structured knowledge graphs. The Multilayer Vision Mechanism (MVM) appears as the key innovation of MEM. This iterative process improves visual analysis by dynamically detecting nested features, such as text within seals or images within stamps. To expose MEM's potential, we apply it to a dataset of digitized incunabula from the Jagiellonian Digital Library and release a manually annotated dataset of 105 manuscript pages. We examine the practical challenges of MEM's usage in real-world GLAM institutions, including the need for domain-specific fine-tuning, the adjustment of enriched metadata with Linked Data standards and computational costs. We present MEM as a flexible and extensible methodology. This paper contributes to the discussion on how artificial intelligence and semantic web technologies can advance cultural heritage research, and also use these technologies in practice.
- Abstract(参考訳): 文化遺産コレクションのデジタル化は、研究のための新たな方向を開くが、豊かなメタデータの欠如は、アクセシビリティ、相互運用性、施設間の協力に重大な課題をもたらす。
過去数年間、YOLOv11やDectorron2といったニューラルネットワークモデルは、視覚データ分析に革命をもたらしたが、構造的特徴抽出とセマンティック相互運用性に対処する方法論が欠如しているため、原稿やインキュナブラといった、ドメイン固有の文化的アーティファクトへの応用は限定的のままである。
本稿では,ニューラルネットワークとセマンティック技術の統合が,文化遺産のデジタル化プロセスにおけるパラダイムシフトを表していることを論じる。
本稿では,細調整されたコンピュータビジョンモデル,大規模言語モデル(LLM),構造化知識グラフを組み合わせることで,デジタル化コレクションのメタデータを充実させる概念的フレームワークであるMetadata Enrichment Model(MEM)を提案する。
MVM(Multilayer Vision Mechanism)は、MEMの鍵となる革新である。
この反復的なプロセスは、シール内のテキストやスタンプ内のイメージなどのネストした特徴を動的に検出することで、視覚分析を改善する。
MEMの可能性を明らかにするために、ジャギロニアデジタルライブラリーからデジタル化されたインキュナブラのデータセットに適用し、105ページの注釈付きデータセットを手動でリリースする。
実世界のGLAM機関におけるMEMの利用の実践的課題として,ドメイン固有の微調整の必要性,Linked Data標準による豊富なメタデータの調整,計算コストなどについて検討する。
我々はMEMを柔軟で拡張可能な方法論として提示する。
本稿では,人工知能とセマンティックウェブ技術が文化遺産研究をいかに進めるか,またこれらの技術を実際に活用するかについて議論する。
関連論文リスト
- Attentional Graph Meta-Learning for Indoor Localization Using Extremely Sparse Fingerprints [17.159049478569173]
フィンガープリントに基づく屋内のローカライゼーションは、高密度グリッドが必要であり、時間と空間にわたって繰り返し測定されるため、労働集約的であることが多い。
既存のベンチマーク手法は主に測定された指紋に依存し、貴重な空間的・環境的特性を無視する。
本稿では,空間的隣接関係を学習し,隣接する指紋から情報を集約することのできる注意グラフニューラルネットワーク(AGNN)モデルの体系的な統合を提案する。
論文 参考訳(メタデータ) (2025-04-07T08:37:18Z) - REO-VLM: Transforming VLM to Meet Regression Challenges in Earth Observation [58.91579272882073]
本稿では,地球観測領域に特有な回帰・生成タスクを統合するために,textbfREO-Instructと呼ばれる新しいベンチマークデータセットを提案する。
我々は,回帰機能を従来の生成関数とシームレスに統合する基盤モデルであるtextbfREO-VLM を開発した。
論文 参考訳(メタデータ) (2024-12-21T11:17:15Z) - Enhancing Document AI Data Generation Through Graph-Based Synthetic Layouts [0.8245350546263803]
グラフニューラルネットワーク(GNN)を用いた文書レイアウト生成のための新しい手法を提案する。
ドキュメント要素をグラフのノードとして表現することで、GNNは現実的で多様なドキュメントレイアウトを生成するように訓練される。
実験の結果,既存の拡張手法よりもグラフ拡張文書のレイアウトが優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-27T21:15:02Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Deep Learning and Machine Learning -- Object Detection and Semantic Segmentation: From Theory to Applications [17.571124565519263]
オブジェクト検出とセマンティックセグメンテーションの詳細な探索を行う。
機械学習とディープラーニングの最先端を概観する。
ビッグデータ処理の解析について述べる。
論文 参考訳(メタデータ) (2024-10-21T02:10:49Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - Images in Discrete Choice Modeling: Addressing Data Isomorphism in
Multi-Modality Inputs [77.54052164713394]
本稿では,離散選択モデリング(DCM)と機械学習の交わりについて考察する。
本稿では,DCMフレームワーク内の従来の表型入力と同型情報を共有する高次元画像データの埋め込み結果について検討する。
論文 参考訳(メタデータ) (2023-12-22T14:33:54Z) - Heri-Graphs: A Workflow of Creating Datasets for Multi-modal Machine
Learning on Graphs of Heritage Values and Attributes with Social Media [7.318997639507268]
価値(なぜ保存されるのか)と属性(なぜ保存されるのか)は文化遺産の本質的な概念である。
近年の研究では、ソーシャルメディアを用いて、大衆が文化遺産に伝達する価値と属性をマッピングしている。
本研究では,Flickr 上のポストや画像を用いたマルチモーダルデータセット構築のための方法論的ワークフローを提案する。
論文 参考訳(メタデータ) (2022-05-16T09:45:45Z) - Neural Networks for Semantic Gaze Analysis in XR Settings [0.0]
本稿では,関心量の注釈に必要な時間と情報を最小化する新しい手法を提案する。
画像拡張手法を用いて,仮想モデルに基づく合成データセット上で畳み込みニューラルネットワーク(cnns)を訓練する。
本手法は実環境および仮想環境で評価し,最先端の手法と競合できることを示す。
論文 参考訳(メタデータ) (2021-03-18T18:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。