論文の概要: Microsoft Cloud-based Digitization Workflow with Rich Metadata Acquisition for Cultural Heritage Objects
- arxiv url: http://arxiv.org/abs/2407.06972v1
- Date: Tue, 9 Jul 2024 15:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 17:27:33.701471
- Title: Microsoft Cloud-based Digitization Workflow with Rich Metadata Acquisition for Cultural Heritage Objects
- Title(参考訳): 文化遺産オブジェクトのためのリッチメタデータ獲得によるMicrosoft Cloudベースのディジタイゼーションワークフロー
- Authors: Krzysztof Kutt, Jakub Gomułka, Luiz do Valle Miranda, Grzegorz J. Nalepa,
- Abstract要約: 我々はジャギロニア図書館(JL)で新しいデジタル化ワークフローを開発した。
ソリューションは、簡単にアクセスできる技術ソリューション - MS Excelファイルインターフェースを備えたMicrosoftクラウド、メタデータ取得用のOffice Script、ストレージ用のMS 365 -- に基づいており、ドメインの専門家がメタデータを取得することができる。
最終的な目標は、一般的な知識基盤と他の文化遺産コレクションに関連付けられた分析された保持状況を記述する知識グラフを作成することである。
- 参考スコア(独自算出の注目度): 7.450700594277742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In response to several cultural heritage initiatives at the Jagiellonian University, we have developed a new digitization workflow in collaboration with the Jagiellonian Library (JL). The solution is based on easy-to-access technological solutions -- Microsoft 365 cloud with MS Excel files as metadata acquisition interfaces, Office Script for validation, and MS Sharepoint for storage -- that allows metadata acquisition by domain experts (philologists, historians, philosophers, librarians, archivists, curators, etc.) regardless of their experience with information systems. The ultimate goal is to create a knowledge graph that describes the analyzed holdings, linked to general knowledge bases, as well as to other cultural heritage collections, so careful attention is paid to the high accuracy of metadata and proper links to external sources. The workflow has already been evaluated in two pilots in the DiHeLib project focused on digitizing the so-called "Berlin Collection" and in two workshops with international guests, which allowed for its refinement and confirmation of its correctness and usability for JL. As the proposed workflow does not interfere with existing systems or domain guidelines regarding digitization and basic metadata collection in a given institution (e.g., file type, image quality, use of Dublin Core/MARC-21), but extends them in order to enable rich metadata collection, not previously possible, we believe that it could be of interest to all GLAMs (galleries, libraries, archives, and museums).
- Abstract(参考訳): ジャギロニア大学におけるいくつかの文化遺産イニシアチブへの対応として,ジャギロニア図書館(JL)と連携して新たなデジタル化ワークフローを開発した。
このソリューションは、メタデータ取得インターフェースとしてMS Excelファイルを備えたMicrosoft 365クラウド、バリデーションのためのOffice Script、ストレージのためのMS Sharepointといった、アクセスしやすい技術ソリューションに基づいており、情報システムの経験に関わらず、ドメインの専門家(文献学者、歴史家、哲学者、図書館員、考古学者、キュレーターなど)によるメタデータの取得を可能にする。
最終的なゴールは、分析された保持状況や一般的な知識基盤、その他の文化遺産コレクションを記述した知識グラフを作成することであり、メタデータの高精度化や外部ソースへの適切なリンクに注意を払っている。
このワークフローは、いわゆる"Berlin Collection"のデジタル化に焦点を当てたDiHeLibプロジェクトの2つのパイロットと、JLの精度とユーザビリティの洗練と確認を可能にする国際的なゲストとのワークショップですでに評価されている。
提案したワークフローは、ある機関におけるデジタル化や基本メタデータの収集に関する既存のシステムやドメインガイドライン(ファイルタイプ、画像品質、ダブリン・コア/MARC-21の使用など)には干渉しないが、より豊かなメタデータの収集を可能にするために拡張されているため、すべてのGLAM(図書室、図書館、アーカイブ、博物館)にとって関心があると信じている。
関連論文リスト
- Is This Collection Worth My LLM's Time? Automatically Measuring Information Potential in Text Corpora [2.3251886193174114]
モデルトレーニングや微調整を必要とせずに,テキストコレクションから得られる潜在的な情報を評価する自動パイプラインを提案する。
提案手法はテキストから複数の選択質問(MCQ)を生成し,LLMの性能を原材料へのアクセスの有無に関わらず測定する。
本手法は,有用な新規情報を含むコレクションを効果的に識別し,データ取得と統合作業の優先順位付けを行うための実用的なツールを提供する。
論文 参考訳(メタデータ) (2025-02-19T13:03:06Z) - BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks [55.61185100263898]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。
BigDocs-Benchも導入しています。
実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-05T21:41:20Z) - Web Archives Metadata Generation with GPT-4o: Challenges and Insights [2.45723043286596]
本稿では,Web Singapore Archiveにおけるメタデータ生成におけるgpt-4oの利用について検討する。
データ削減技術を用いて112のWeb ARChive(WARC)ファイルを処理し、メタデータ生成コストを99.9%削減した。
この研究は、コンテンツ不正確性、幻覚、翻訳問題を含む主要な課題を特定し、人間カタログの置き換えではなく、Large Language Models(LLM)が補体として機能すべきであることを示唆している。
論文 参考訳(メタデータ) (2024-11-08T08:59:40Z) - A Library Perspective on Supervised Text Processing in Digital Libraries: An Investigation in the Biomedical Domain [3.9519587827662397]
本研究では,8つのバイオメディカルベンチマークを用いて,関係抽出とテキスト分類に焦点を当てた。
精度とアプリケーションコストのトレードオフを検討し、遠隔監視とChatGPT、LLama、Olmoといった大規模言語モデルを通じてデータ生成のトレーニングを行い、最終パイプラインの設計方法について論じる。
論文 参考訳(メタデータ) (2024-11-06T07:54:10Z) - DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - Advancing Manuscript Metadata: Work in Progress at the Jagiellonian University [7.993453987882035]
ジャギロニア大学の3つのユニットが協力して、文化遺産をデジタル化し、詳細を記述し、これらの記述をリンクされたデータクラウドに統合している。
本報告では,開発中のデータモデルの最も重要な要件について概説する。
コレクションの観点から最も関連性の高い2つの標準であるEuropeana Data ModelとKalliopeのEncoded Archival Descriptionを比較した。
論文 参考訳(メタデータ) (2024-07-09T15:52:06Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Learning to Learn from APIs: Black-Box Data-Free Meta-Learning [99.56612787882334]
データフリーなメタラーニング(DFML)は、トレーニングデータにアクセスせずに事前訓練されたモデルの集合からメタラーニングすることで、新しいタスクの効率的な学習を可能にすることを目的としている。
既存のDFMLの作業は、(i)ホワイトボックスと(ii)小規模事前訓練モデルからしかメタ学習できない。
ブラックボックスAPIの集合から単一のモデルへ,より一般的なメタ知識を伝達するための,バイレベルデータフリーなメタ知識蒸留(BiDf-MKD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-28T18:00:12Z) - LAVIS: A Library for Language-Vision Intelligence [98.88477610704938]
LAVISは、LAnguage-VISionの研究と応用のためのオープンソースライブラリである。
最先端の画像言語、ビデオ言語モデル、一般的なデータセットに容易にアクセスできる統一インターフェースを備えている。
論文 参考訳(メタデータ) (2022-09-15T18:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。