論文の概要: Multimodal Metadata Assignment for Cultural Heritage Artifacts
- arxiv url: http://arxiv.org/abs/2406.00423v1
- Date: Sat, 1 Jun 2024 12:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 07:15:00.896368
- Title: Multimodal Metadata Assignment for Cultural Heritage Artifacts
- Title(参考訳): 文化財のマルチモーダルメタデータアサインメント
- Authors: Luis Rei, Dunja Mladenić, Mareike Dorozynski, Franz Rottensteiner, Thomas Schleider, Raphaël Troncy, Jorge Sebastián Lozano, Mar Gaitán Salvatella,
- Abstract要約: 我々は,後期融合アプローチを用いた文化的遺産ドメインのマルチモーダル分類器を開発した。
3つのモダリティは、画像、テキスト、タブラリデータである。
個々の分類器は、デジタル化された絹のアーティファクトの欠落特性を正確に予測し、マルチモーダルなアプローチが最良の結果をもたらす。
- 参考スコア(独自算出の注目度): 1.5826261914050386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a multimodal classifier for the cultural heritage domain using a late fusion approach and introduce a novel dataset. The three modalities are Image, Text, and Tabular data. We based the image classifier on a ResNet convolutional neural network architecture and the text classifier on a multilingual transformer architecture (XML-Roberta). Both are trained as multitask classifiers and use the focal loss to handle class imbalance. Tabular data and late fusion are handled by Gradient Tree Boosting. We also show how we leveraged specific data models and taxonomy in a Knowledge Graph to create the dataset and to store classification results. All individual classifiers accurately predict missing properties in the digitized silk artifacts, with the multimodal approach providing the best results.
- Abstract(参考訳): 我々は,後期融合アプローチを用いた文化遺産領域のマルチモーダル分類器を開発し,新しいデータセットを導入する。
3つのモダリティは、画像、テキスト、タブラリデータである。
画像分類器はResNet畳み込みニューラルネットワークアーキテクチャとテキスト分類器を多言語変換器アーキテクチャ(XML-Roberta)に基づいて構築した。
どちらもマルチタスク分類器として訓練され、クラス不均衡を扱うために焦点損失を使用する。
タブラルデータとレイトフュージョンはGradient Tree Boostingによって処理される。
また、特定のデータモデルと分類を知識グラフに活用してデータセットを作成し、分類結果を格納する方法も示しています。
個々の分類器は、デジタル化された絹のアーティファクトの欠落特性を正確に予測し、マルチモーダルなアプローチが最良の結果をもたらす。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Replica Tree-based Federated Learning using Limited Data [6.572149681197959]
本研究では,RepTreeFLという新しいフェデレーション学習フレームワークを提案する。
ソリューションの中核はレプリカの概念であり、モデルアーキテクチャをコピーし、ローカルなデータ分散を摂動することで、各クライアントを複製します。
当社のアプローチでは,データ分布の多様さで多数のモデルを集約することで,限られたデータと少数のクライアントから学習することが可能である。
論文 参考訳(メタデータ) (2023-12-28T17:47:25Z) - MotherNet: A Foundational Hypernetwork for Tabular Classification [1.9643748953805937]
我々は、数百万の分類タスクで訓練されたMotherNetと呼ばれるハイパーネットワークアーキテクチャを提案する。
MotherNetは、特定のデータセットのトレーニングを、単一のフォワードパスを通じてコンテキスト内学習に置き換える。
MotherNetが生成する子ネットワークは、コンテキスト内学習を使用して、小さなデータセット上で勾配降下を用いてトレーニングされたニューラルネットワークより優れています。
論文 参考訳(メタデータ) (2023-12-14T01:48:58Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Black Box to White Box: Discover Model Characteristics Based on
Strategic Probing [0.0]
White Box Adversarial Attacksは、モデル属性に関する基本的な知識に頼っている。
この作業は、基礎となるアーキテクチャと一次トレーニングデータセットという、モデルの情報を分離する部分を見つけることに焦点を当てている。
イメージ分類では、一般的なパブリックライブラリで利用可能な、広くデプロイされたアーキテクチャとデータセットの探索に重点を置いている。
複数のパラメーターを持つ単一のトランスフォーマーアーキテクチャを用いて、テキスト生成は異なるデータセットを微調整することによって行われる。
画像とテキストで探索された各データセットは、互いに区別可能である。
論文 参考訳(メタデータ) (2020-09-07T14:44:28Z) - End-to-End Entity Classification on Multimodal Knowledge Graphs [0.0]
本稿では,グラフ構造からエンドツーエンドを学習するマルチモーダルメッセージパッシングネットワークを提案する。
我々のモデルは、専用(神経)エンコーダを使用して、5種類のモードに属するノードの特徴の埋め込みを自然に学習する。
私たちの結果は、複数のモダリティからの情報を含めることで、モデル全体のパフォーマンスが向上する、という私たちの仮説を支持します。
論文 参考訳(メタデータ) (2020-03-25T14:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。