論文の概要: Rich Interoperable Metadata for Cultural Heritage Projects at Jagiellonian University
- arxiv url: http://arxiv.org/abs/2407.06976v2
- Date: Sun, 22 Jun 2025 15:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.196175
- Title: Rich Interoperable Metadata for Cultural Heritage Projects at Jagiellonian University
- Title(参考訳): ジャギロニア大学文化遺産プロジェクトのためのリッチ・インターオペラビリティ・メタデータ
- Authors: Luiz do Valle Miranda, Krzysztof Kutt, Elżbieta Sroka, Grzegorz J. Nalepa,
- Abstract要約: MARC 21やDublin Coreといったコア標準は、柔軟性が十分ではないため、ライブラリに格納されたオブジェクトのために現在作成されたリッチなメタデータは保存できない。
我々は、現在JUで収集されているオブジェクトのメタデータを、文化遺産コミュニティが使用している5つの幅広いメタデータ標準と比較した。
予備的な結果は両者のマッピングが本当に問題であることを示しましたが、JU文化遺産メタデータスキーマのさらなる研究に追従すべき要件を特定しました。
- 参考スコア(独自算出の注目度): 7.450700594277742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rich metadata created nowadays for objects stored in libraries has nowhere to be stored, because core standards, namely MARC 21 and Dublin Core, are not flexible enough. The aim of this paper is to summarize our work-in-progress on tackling this problem in research on cultural heritage objects at the Jagiellonian University (JU). We compared the objects' metadata currently being collected at the JU (with examples of manuscript, placard, and obituary) with five widespread metadata standards used by the cultural heritage community: Dublin Core, EAD, MODS, EDM and Digital Scriptorium. Our preliminary results showed that mapping between them is indeed problematic, but we identified requirements that should be followed in further work on the JU cultural heritage metadata schema in order to achieve maximum interoperability. As we move forward, based on the successive versions of the conceptual model, we will conduct experiments to validate the practical feasibility of these mappings and the degree to which the proposed model will actually enable integration with data in these various metadata formats.
- Abstract(参考訳): MARC 21やDublin Coreといったコア標準は、柔軟性が十分ではないため、ライブラリに格納されたオブジェクトのために現在作成されたリッチなメタデータは保存できない。
本研究の目的は,ジャギロニア大学 (JU) の文化遺産研究において,この問題に取り組むための取り組みをまとめることである。
我々は、現在JUで収集されているオブジェクトのメタデータ(原稿、プラカード、辞典の例)を、文化遺産コミュニティが広く使用している5つのメタデータ標準(Dublin Core、EDD、MODS、EDM、Digital Scriptorium)と比較した。
予備的な結果は,両者のマッピングが本当に問題であることを示しているが,最大相互運用性を実現するため,JU文化遺産メタデータスキーマのさらなる開発に追従すべき要件が明らかになった。
今後,概念モデルの連続的なバージョンに基づいて,これらのマッピングの実現可能性と,提案モデルが実際にこれらのメタデータフォーマットでデータとの統合を可能にする程度を検証する実験を行う。
関連論文リスト
- Metadata Enrichment of Long Text Documents using Large Language Models [3.536523762475449]
本プロジェクトでは,1920年から2020年にかけて出版された英語のHatiTrust Digital Libraryから取得した長文文書のメタデータ,論文,論文のセマンティックエンリッチ化と拡張を行った。
このデータセットは、計算社会科学、デジタル人文科学、情報科学などの分野の研究を進めるための貴重なリソースを提供する。
論文 参考訳(メタデータ) (2025-06-26T00:55:47Z) - CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。
本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文 参考訳(メタデータ) (2025-06-10T17:16:23Z) - Position Paper: Metadata Enrichment Model: Integrating Neural Networks and Semantic Knowledge Graphs for Cultural Heritage Applications [8.732274235941974]
本稿では,メタデータをデジタル化するための概念的フレームワークであるMetadata Enrichment Model(MEM)を提案する。
MEMは、微調整されたコンピュータビジョンモデル、大きな言語モデル、構造化知識グラフを組み合わせる。
我々はジャギロニアデジタル図書館からデジタル化されたインキュナブラのデータセットをリリースする。
論文 参考訳(メタデータ) (2025-05-29T15:22:18Z) - From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - A Generative AI-driven Metadata Modelling Approach [1.450405446885067]
本稿では,ジェネレーティブなAI駆動型Human-Large Language Model (LLM) を用いたメタデータモデリング手法を提案する。
論文 参考訳(メタデータ) (2024-12-13T09:26:04Z) - Web Archives Metadata Generation with GPT-4o: Challenges and Insights [2.45723043286596]
本稿では,Web Singapore Archiveにおけるメタデータ生成におけるgpt-4oの利用について検討する。
データ削減技術を用いて112のWeb ARChive(WARC)ファイルを処理し、メタデータ生成コストを99.9%削減した。
この研究は、コンテンツ不正確性、幻覚、翻訳問題を含む主要な課題を特定し、人間カタログの置き換えではなく、Large Language Models(LLM)が補体として機能すべきであることを示唆している。
論文 参考訳(メタデータ) (2024-11-08T08:59:40Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Microsoft Cloud-based Digitization Workflow with Rich Metadata Acquisition for Cultural Heritage Objects [7.450700594277742]
我々はジャギロニア図書館(JL)で新しいデジタル化ワークフローを開発した。
ソリューションは、簡単にアクセスできる技術ソリューション - MS Excelファイルインターフェースを備えたMicrosoftクラウド、メタデータ取得用のOffice Script、ストレージ用のMS 365 -- に基づいており、ドメインの専門家がメタデータを取得することができる。
最終的な目標は、一般的な知識基盤と他の文化遺産コレクションに関連付けられた分析された保持状況を記述する知識グラフを作成することである。
論文 参考訳(メタデータ) (2024-07-09T15:49:47Z) - EUFCC-340K: A Faceted Hierarchical Dataset for Metadata Annotation in GLAM Collections [6.723689308768857]
EUFCC340Kデータセットは、AAT(Art & Architecture Thesaurus)に基づいた階層構造に従って、材料、オブジェクトタイプ、ディシプリエンス、主題という、複数の面にまたがって構成されている。
2つの異なるテストシナリオにおけるモデルロバスト性および一般化能力の評価実験は、マルチラベル分類ツールの改善におけるデータセットの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-04T14:57:56Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - DAC-MR: Data Augmentation Consistency Based Meta-Regularization for
Meta-Learning [55.733193075728096]
メタ学習を改善するメタ知識情報メタラーニング(MKIML)フレームワークを提案する。
適切なメタレギュラー化(MR)目標を用いて,メタ知識をメタオブジェクトに統合する。
提案したDAC-MRは、ノイズ、スパース、あるいは利用できないメタデータのトレーニングタスクから、良好なパフォーマンスのメタモデルを学ぶことを期待している。
論文 参考訳(メタデータ) (2023-05-13T11:01:47Z) - Documenting Data Production Processes: A Participatory Approach for Data
Work [4.811554861191618]
機械学習データの不透明さは 倫理的なデータ処理と 知的なシステムにとって 重大な脅威です
これまでの研究では、データセットを文書化するための標準化されたチェックリストが提案されている。
本稿では,データセットのドキュメンテーションからデータ生成のドキュメンテーションへの視点転換を提案する。
論文 参考訳(メタデータ) (2022-07-11T15:39:02Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Documenting Geographically and Contextually Diverse Data Sources: The
BigScience Catalogue of Language Data and Resources [17.69148305999049]
我々はBigScienceイニシアチブの一環として、ドキュメントファーストで人間中心のデータ収集プロジェクトのための方法論を提示する。
我々は,潜在的なデータソースのメタデータを収集する,地理的に多様な対象言語群を同定する。
この取り組みを構築するために,組織化された公開ハッカソンを通じてメタデータを収集する支援ツールとして,オンラインカタログを開発した。
論文 参考訳(メタデータ) (2022-01-25T03:05:23Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。