論文の概要: Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation
- arxiv url: http://arxiv.org/abs/2306.08487v2
- Date: Wed, 21 Jun 2023 01:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 16:43:37.507051
- Title: Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation
- Title(参考訳): マルチモーダル集中型知識グラフによる未知物体の認識
- Authors: Likang Wu, Zhi Li, Hongke Zhao, Zhefeng Wang, Qi Liu, Baoxing Huai,
Nicholas Jing Yuan, Enhong Chen
- Abstract要約: 画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
- 参考スコア(独自算出の注目度): 68.13453771001522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-Shot Learning (ZSL), which aims at automatically recognizing unseen
objects, is a promising learning paradigm to understand new real-world
knowledge for machines continuously. Recently, the Knowledge Graph (KG) has
been proven as an effective scheme for handling the zero-shot task with
large-scale and non-attribute data. Prior studies always embed relationships of
seen and unseen objects into visual information from existing knowledge graphs
to promote the cognitive ability of the unseen data. Actually, real-world
knowledge is naturally formed by multimodal facts. Compared with ordinary
structural knowledge from a graph perspective, multimodal KG can provide
cognitive systems with fine-grained knowledge. For example, the text
description and visual content can depict more critical details of a fact than
only depending on knowledge triplets. Unfortunately, this multimodal
fine-grained knowledge is largely unexploited due to the bottleneck of feature
alignment between different modalities. To that end, we propose a multimodal
intensive ZSL framework that matches regions of images with corresponding
semantic embeddings via a designed dense attention module and self-calibration
loss. It makes the semantic transfer process of our ZSL framework learns more
differentiated knowledge between entities. Our model also gets rid of the
performance limitation of only using rough global features. We conduct
extensive experiments and evaluate our model on large-scale real-world data.
The experimental results clearly demonstrate the effectiveness of the proposed
model in standard zero-shot classification tasks.
- Abstract(参考訳): Zero-Shot Learning (ZSL)は、見えないオブジェクトを自動的に認識することを目的としており、マシンに対する新しい現実世界の知識を継続的に理解するための、有望な学習パラダイムである。
近年、知識グラフ(kg)は、ゼロショットタスクを大規模かつ非帰属データで扱うための効果的なスキームとして証明されている。
先行研究は常に、見えないオブジェクトと見えないオブジェクトの関係を、既存の知識グラフから視覚情報に埋め込み、見えないデータの認知能力を促進する。
実際、現実世界の知識は自然にマルチモーダルな事実によって形成されます。
グラフの観点からの通常の構造的知識と比較して、マルチモーダルkgはきめ細かい知識を持つ認知システムを提供できる。
例えば、テキスト記述とビジュアルコンテンツは、知識のトリプレットのみに依存するよりも、事実のより重要な詳細を描写することができる。
残念ながら、このマルチモーダルなきめ細かな知識は、異なるモダリティ間の機能アライメントのボトルネックのため、ほとんど展開されていない。
そこで我々は,画像の領域と対応するセマンティックな埋め込みとを,設計した集中型注目モジュールと自己校正損失によってマッチングする多モード集中型ZSLフレームワークを提案する。
これにより、ZSLフレームワークのセマンティックトランスファープロセスは、エンティティ間のより分化した知識を学習する。
私たちのモデルは、粗いグローバル機能のみを使用する場合のパフォーマンス制限も取り除きます。
大規模実世界データを用いた大規模実験を行い,モデルの評価を行った。
実験結果は,標準ゼロショット分類タスクにおける提案モデルの有効性を明らかにした。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder
with Semantic Concepts [0.9054540533394924]
近年の手法では,意味空間と画像空間の相互マッピングの学習が試みられている。
画像特徴と意味空間の共有潜在空間を学習できるマルチモーダル変分自動エンコーダ(M-VAE)を提案する。
提案手法は, ゼロショット学習における最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-26T20:08:37Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z) - All About Knowledge Graphs for Actions [82.39684757372075]
ゼロショットと少数ショットのアクション認識に使用できる知識グラフ(KG)の理解を深める。
KGsの3つの異なる構成機構について検討した。
異なる実験装置に対する異なるKGの影響を広範囲に解析する。
論文 参考訳(メタデータ) (2020-08-28T01:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。