論文の概要: UKnow: A Unified Knowledge Protocol with Multimodal Knowledge Graph Datasets for Reasoning and Vision-Language Pre-Training
- arxiv url: http://arxiv.org/abs/2302.06891v4
- Date: Sat, 28 Sep 2024 15:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:03.043210
- Title: UKnow: A Unified Knowledge Protocol with Multimodal Knowledge Graph Datasets for Reasoning and Vision-Language Pre-Training
- Title(参考訳): 英語: Unified Knowledge Protocol with Multimodal Knowledge Graph Datasets for Reasoning and Vision-Language Pre-Training (英語)
- Authors: Biao Gong, Shuai Tan, Yutong Feng, Xiaoying Xie, Yuyuan Li, Chaochao Chen, Kecheng Zheng, Yujun Shen, Deli Zhao,
- Abstract要約: この研究はUKnowと呼ばれる統一知識プロトコルを提示し、データの観点から知識に基づく研究を促進する。
データ知識は、インイメージ、インテキスト、クロスイメージ、クロステキスト、イメージテキストの5つのタイプに分類される。
UKnowプロトコルに従って、我々は、大規模なマルチモーダル知識グラフデータセットである、公開国際ニュースから収集する。
- 参考スコア(独自算出の注目度): 48.184673241046134
- License:
- Abstract: This work presents a unified knowledge protocol, called UKnow, which facilitates knowledge-based studies from the perspective of data. Particularly focusing on visual and linguistic modalities, we categorize data knowledge into five unit types, namely, in-image, in-text, cross-image, cross-text, and image-text, and set up an efficient pipeline to help construct the multimodal knowledge graph from any data collection. Thanks to the logical information naturally contained in knowledge graph, organizing datasets under UKnow format opens up more possibilities of data usage compared to the commonly used image-text pairs. Following UKnow protocol, we collect, from public international news, a large-scale multimodal knowledge graph dataset that consists of 1,388,568 nodes (with 571,791 vision-related ones) and 3,673,817 triplets. The dataset is also annotated with rich event tags, including 11 coarse labels and 9,185 fine labels. Experiments on 4 benchmarks demonstrate the potential of UKnow in supporting common-sense reasoning and boosting vision-language pre-training with a single dataset, benefiting from its unified form of knowledge organization. See Appendix to download the dataset.
- Abstract(参考訳): この研究はUKnowと呼ばれる統一知識プロトコルを提示し、データの観点から知識に基づく研究を促進する。
特に、視覚的・言語的なモダリティに着目し、データ知識をインイメージ、インテキスト、クロスイメージ、クロステキスト、イメージテキストという5つのユニットタイプに分類し、任意のデータコレクションからマルチモーダルな知識グラフを構築するための効率的なパイプラインを構築します。
ナレッジグラフに自然に含まれている論理的情報のおかげで、UKnowフォーマットでデータセットを編成することで、一般的に使用される画像とテキストのペアと比較して、データ使用の可能性が拡大する。
UKnowプロトコルに従って、我々は、公開国際ニュースから、1,388,568のノード(571,791の視覚関連ノード)と3,673,817のトリプルからなる大規模なマルチモーダル知識グラフデータセットを収集します。
データセットには、11の粗いラベルと9,185の細かなラベルを含む、リッチなイベントタグもアノテートされている。
4つのベンチマークの実験は、UKnowが共通のセンス推論をサポートし、単一のデータセットでビジョン言語による事前トレーニングを促進する可能性を実証している。
データセットのダウンロードにはAppendixを参照してください。
関連論文リスト
- Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - VisionKG: Unleashing the Power of Visual Datasets via Knowledge Graph [2.3143591448419074]
Vision Knowledge Graph (VisionKG)は、知識グラフとセマンティックWeb技術を介して視覚データセットを相互にリンクし、整理し、管理する新しいリソースである。
VisionKGには現在5億1900万のRDFトリプルがあり、約4000万のエンティティを記述している。
論文 参考訳(メタデータ) (2023-09-24T11:19:13Z) - End-to-End Learning on Multimodal Knowledge Graphs [0.0]
本稿では,グラフ構造からエンドツーエンドを学習するマルチモーダルメッセージパッシングネットワークを提案する。
我々のモデルは、専用(神経)エンコーダを使用して、5種類のモードに属するノードの特徴の埋め込みを自然に学習する。
この結果から,任意の知識グラフからエンド・ツー・エンドのマルチモーダル学習が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-03T13:16:18Z) - Learning Representations without Compositional Assumptions [79.12273403390311]
本稿では,特徴集合をグラフノードとして表現し,それらの関係を学習可能なエッジとして表現することで,特徴集合の依存関係を学習するデータ駆動型アプローチを提案する。
また,複数のビューから情報を動的に集約するために,より小さな潜在グラフを学習する新しい階層グラフオートエンコーダLEGATOを導入する。
論文 参考訳(メタデータ) (2023-05-31T10:36:10Z) - EventNarrative: A large-scale Event-centric Dataset for Knowledge
Graph-to-Text Generation [8.216976747904726]
EventNarrativeは,約23万のグラフと,対応する自然言語テキストで構成されている。
私たちの目標は2つある – データが不足しているイベント中心の研究において,新たな基盤を突破する上で,研究者が明確に定義された大規模データセットを提供することです。
論文 参考訳(メタデータ) (2021-10-30T15:39:20Z) - GCNBoost: Artwork Classification by Label Propagation through a
Knowledge Graph [32.129005474301735]
文脈情報はしばしば、そのような現実世界のデータを構成する鍵であり、知識グラフの形で使用することを提案する。
本稿では,注釈付きデータと擬似ラベル付きデータに基づいて構築された知識グラフの新たな利用法を提案する。
ラベルの伝搬により、グラフ畳み込みネットワークを用いてモデルを訓練することにより、アートワークの分類を向上する。
論文 参考訳(メタデータ) (2021-05-25T11:50:05Z) - Knowledge-Guided Multi-Label Few-Shot Learning for General Image
Recognition [75.44233392355711]
KGGRフレームワークは、ディープニューラルネットワークと統計ラベル相関の事前知識を利用する。
まず、統計ラベルの共起に基づいて異なるラベルを相関させる構造化知識グラフを構築する。
次に、ラベルセマンティクスを導入し、学習セマンティクス固有の特徴をガイドする。
グラフノードの相互作用を探索するためにグラフ伝搬ネットワークを利用する。
論文 参考訳(メタデータ) (2020-09-20T15:05:29Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。