論文の概要: EUFCC-340K: A Faceted Hierarchical Dataset for Metadata Annotation in GLAM Collections
- arxiv url: http://arxiv.org/abs/2406.02380v1
- Date: Tue, 4 Jun 2024 14:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 15:50:54.754407
- Title: EUFCC-340K: A Faceted Hierarchical Dataset for Metadata Annotation in GLAM Collections
- Title(参考訳): EUFCC-340K:GLAMコレクションにおけるメタデータアノテーションのための階層的データセット
- Authors: Francesc Net, Marc Folia, Pep Casals, Andrew D. Bagdanov, Lluis Gomez,
- Abstract要約: EUFCC340Kデータセットは、AAT(Art & Architecture Thesaurus)に基づいた階層構造に従って、材料、オブジェクトタイプ、ディシプリエンス、主題という、複数の面にまたがって構成されている。
2つの異なるテストシナリオにおけるモデルロバスト性および一般化能力の評価実験は、マルチラベル分類ツールの改善におけるデータセットの有用性を実証する。
- 参考スコア(独自算出の注目度): 6.723689308768857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we address the challenges of automatic metadata annotation in the domain of Galleries, Libraries, Archives, and Museums (GLAMs) by introducing a novel dataset, EUFCC340K, collected from the Europeana portal. Comprising over 340,000 images, the EUFCC340K dataset is organized across multiple facets: Materials, Object Types, Disciplines, and Subjects, following a hierarchical structure based on the Art & Architecture Thesaurus (AAT). We developed several baseline models, incorporating multiple heads on a ConvNeXT backbone for multi-label image tagging on these facets, and fine-tuning a CLIP model with our image text pairs. Our experiments to evaluate model robustness and generalization capabilities in two different test scenarios demonstrate the utility of the dataset in improving multi-label classification tools that have the potential to alleviate cataloging tasks in the cultural heritage sector.
- Abstract(参考訳): 本稿では,欧州のポータルから収集した新たなデータセットであるEUFCC340Kを導入することで,ギャラリー,図書館,アーカイブ,博物館(GLAM)のドメインにおけるメタデータの自動アノテーションの課題に対処する。
このデータセットは、Art & Architecture Thesaurus (AAT)に基づく階層構造に従って、マテリアル、オブジェクトタイプ、ディシプリエンス、サブジェクトという複数の領域にまたがって構成されている。
我々は複数のベースラインモデルを開発し、複数のヘッドをConvNeXTバックボーンに組み込んで、これらのファセットに複数ラベルのイメージタグを付け、画像テキストペアでCLIPモデルを微調整した。
2つの異なるテストシナリオにおけるモデルロバスト性および一般化能力を評価する実験は、文化遺産分野におけるカタログ化タスクを緩和する可能性を持つ多ラベル分類ツールの改善におけるデータセットの有用性を実証するものである。
関連論文リスト
- EUFCC-CIR: a Composed Image Retrieval Dataset for GLAM Collections [0.0]
EUFCC-CIRは、ギャラリー、図書館、アーカイブ、博物館(GLAM)コレクション内のコンポジションイメージ検索(CIR)のために設計されたデータセットである。
我々のデータセットは、EUFCC-340Kイメージラベルデータセットの上に構築されており、180K以上の注釈付きCIRトリプルを含んでいる。
論文 参考訳(メタデータ) (2024-10-02T13:26:53Z) - Hierarchical Multi-Label Classification with Missing Information for Benthic Habitat Imagery [1.6492989697868894]
複数のレベルのアノテーション情報が存在するシナリオでHMLトレーニングを行う能力を示す。
その結果,局所的・局所的なベントニック・サイエンス・プロジェクトで典型的な,より小さなワンホット・イメージ・ラベル・データセットを使用する場合,イメージネット上で事前学習したドメイン内ベントニック・データの大規模な収集に対して,自己スーパービジョンで事前学習したモデルの方が優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-10T16:15:01Z) - Mixed-Query Transformer: A Unified Image Segmentation Architecture [57.32212654642384]
既存の統合イメージセグメンテーションモデルは、複数のタスクにまたがる統一アーキテクチャを採用するが、各データセットに合わせた個別の重みを使用するか、複数のデータセットに1セットの重みを適用するが、1つのタスクに限定される。
マルチタスクとマルチデータセット画像セグメンテーションを一組の重みで統合したアーキテクチャであるMixed-Query Transformer (MQ-Former)を紹介した。
論文 参考訳(メタデータ) (2024-04-06T01:54:17Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - A Multi-Modal Multilingual Benchmark for Document Image Classification [21.7518357653137]
新たに作成した2つの多言語データセットWIKI-DOCと MultiEUR-DOCLEXを紹介する。
我々は、文書画像分類における未検証設定において、視覚的に豊富な文書理解や文書AIモデルについて研究する。
実験結果から,多言語間移動における多言語文書AIモデルの限界が示された。
論文 参考訳(メタデータ) (2023-10-25T04:35:06Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - AToMiC: An Image/Text Retrieval Test Collection to Support Multimedia
Content Creation [42.35572014527354]
AToMiCデータセットは、画像/テキストのクロスモーダル検索の研究を進めるために設計されている。
我々は、ウィキペディアに埋め込まれた大規模な画像文書関連だけでなく、階層構造やテキスト、スタイル、画像のさまざまな領域を活用している。
AToMiCはスケーラブルで多様な再現可能なマルチメディア検索研究のためのテストベッドを提供する。
論文 参考訳(メタデータ) (2023-04-04T17:11:34Z) - VRDU: A Benchmark for Visually-rich Document Understanding [22.040372755535767]
より包括的なベンチマークのためのdesiderataを特定し、Visually Rich Document Understanding (VRDU)と呼ぶものを提案する。
多様なデータ型と階層的なエンティティを含むリッチスキーマ、テーブルやマルチカラムレイアウトを含む複雑なテンプレート、単一のドキュメントタイプ内のさまざまなレイアウト(テンプレート)の多様性。
提案手法は,抽出結果を評価するために慎重に設計されたマッチングアルゴリズムとともに,数ショットおよび従来型の実験環境を設計する。
論文 参考訳(メタデータ) (2022-11-15T03:17:07Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。