論文の概要: UKnow: A Unified Knowledge Protocol for Common-Sense Reasoning and
Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2302.06891v1
- Date: Tue, 14 Feb 2023 08:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 16:03:20.639352
- Title: UKnow: A Unified Knowledge Protocol for Common-Sense Reasoning and
Vision-Language Pre-training
- Title(参考訳): uknow: 常識推論と視覚言語事前学習のための統一知識プロトコル
- Authors: Biao Gong, Xiaoying Xie, Yutong Feng, Yiliang Lv, Yujun Shen, Deli
Zhao
- Abstract要約: この研究はUKnowと呼ばれる統一知識プロトコルを提示し、データの観点から知識に基づく研究を促進する。
データ知識は、インイメージ、インテキスト、クロスイメージ、クロステキスト、イメージテキストの5つのタイプに分類される。
このプロトコルに従って、我々は、大規模なマルチモーダル知識グラフデータセットである、公開国際ニュースから収集する。
- 参考スコア(独自算出の注目度): 22.95359488058758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a unified knowledge protocol, called UKnow, which
facilitates knowledge-based studies from the perspective of data. Particularly
focusing on visual and linguistic modalities, we categorize data knowledge into
five unit types, namely, in-image, in-text, cross-image, cross-text, and
image-text. Following this protocol, we collect, from public international
news, a large-scale multimodal knowledge graph dataset that consists of
1,388,568 nodes (with 571,791 vision-related ones) and 3,673,817 triplets. The
dataset is also annotated with rich event tags, including 96 coarse labels and
9,185 fine labels, expanding its potential usage. To further verify that UKnow
can serve as a standard protocol, we set up an efficient pipeline to help
reorganize existing datasets under UKnow format. Finally, we benchmark the
performance of some widely-used baselines on the tasks of common-sense
reasoning and vision-language pre-training. Results on both our new dataset and
the reformatted public datasets demonstrate the effectiveness of UKnow in
knowledge organization and method evaluation. Code, dataset, conversion tool,
and baseline models will be made public.
- Abstract(参考訳): この研究はUKnowと呼ばれる統一知識プロトコルを提示し、データの観点から知識に基づく研究を促進する。
特に視覚的および言語的モダリティに着目し,データ知識を画像内,テキスト内,画像間,テキスト間,テキスト間という5つの単位型に分類した。
このプロトコルに従うと、公開国際ニュースから、1,388,568ノード(571,791ビジョン関連)と3,673,817トリプルからなる大規模マルチモーダル知識グラフデータセットを収集する。
データセットには96の粗いラベルと9,185の細かいラベルを含むリッチなイベントタグがアノテートされている。
UKnowが標準プロトコルとして機能することを確認するため、UKnowフォーマットで既存のデータセットを再編成するための効率的なパイプラインを構築しました。
最後に,共通意味推論や視覚言語事前学習のタスクにおいて,広く使用されているベースラインのパフォーマンスをベンチマークする。
我々の新しいデータセットと改定された公開データセットの結果は、知識組織におけるUKnowの有効性と手法評価を示している。
コード、データセット、変換ツール、ベースラインモデルは公開されます。
関連論文リスト
- Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - VisionKG: Unleashing the Power of Visual Datasets via Knowledge Graph [2.3143591448419074]
Vision Knowledge Graph (VisionKG)は、知識グラフとセマンティックWeb技術を介して視覚データセットを相互にリンクし、整理し、管理する新しいリソースである。
VisionKGには現在5億1900万のRDFトリプルがあり、約4000万のエンティティを記述している。
論文 参考訳(メタデータ) (2023-09-24T11:19:13Z) - End-to-End Learning on Multimodal Knowledge Graphs [0.0]
本稿では,グラフ構造からエンドツーエンドを学習するマルチモーダルメッセージパッシングネットワークを提案する。
我々のモデルは、専用(神経)エンコーダを使用して、5種類のモードに属するノードの特徴の埋め込みを自然に学習する。
この結果から,任意の知識グラフからエンド・ツー・エンドのマルチモーダル学習が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-03T13:16:18Z) - Learning Representations without Compositional Assumptions [79.12273403390311]
本稿では,特徴集合をグラフノードとして表現し,それらの関係を学習可能なエッジとして表現することで,特徴集合の依存関係を学習するデータ駆動型アプローチを提案する。
また,複数のビューから情報を動的に集約するために,より小さな潜在グラフを学習する新しい階層グラフオートエンコーダLEGATOを導入する。
論文 参考訳(メタデータ) (2023-05-31T10:36:10Z) - EventNarrative: A large-scale Event-centric Dataset for Knowledge
Graph-to-Text Generation [8.216976747904726]
EventNarrativeは,約23万のグラフと,対応する自然言語テキストで構成されている。
私たちの目標は2つある – データが不足しているイベント中心の研究において,新たな基盤を突破する上で,研究者が明確に定義された大規模データセットを提供することです。
論文 参考訳(メタデータ) (2021-10-30T15:39:20Z) - GCNBoost: Artwork Classification by Label Propagation through a
Knowledge Graph [32.129005474301735]
文脈情報はしばしば、そのような現実世界のデータを構成する鍵であり、知識グラフの形で使用することを提案する。
本稿では,注釈付きデータと擬似ラベル付きデータに基づいて構築された知識グラフの新たな利用法を提案する。
ラベルの伝搬により、グラフ畳み込みネットワークを用いてモデルを訓練することにより、アートワークの分類を向上する。
論文 参考訳(メタデータ) (2021-05-25T11:50:05Z) - Knowledge-Guided Multi-Label Few-Shot Learning for General Image
Recognition [75.44233392355711]
KGGRフレームワークは、ディープニューラルネットワークと統計ラベル相関の事前知識を利用する。
まず、統計ラベルの共起に基づいて異なるラベルを相関させる構造化知識グラフを構築する。
次に、ラベルセマンティクスを導入し、学習セマンティクス固有の特徴をガイドする。
グラフノードの相互作用を探索するためにグラフ伝搬ネットワークを利用する。
論文 参考訳(メタデータ) (2020-09-20T15:05:29Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。