論文の概要: Visual-Semantic Embedding Model Informed by Structured Knowledge
- arxiv url: http://arxiv.org/abs/2009.10026v1
- Date: Mon, 21 Sep 2020 17:04:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 03:58:38.455022
- Title: Visual-Semantic Embedding Model Informed by Structured Knowledge
- Title(参考訳): 構造化知識を用いた視覚意味埋め込みモデル
- Authors: Mirantha Jayathilaka, Tingting Mu, Uli Sattler
- Abstract要約: 本稿では,外部構造的知識ベースから取得した概念表現を組み込むことにより,視覚意味の埋め込みモデルを改善する新しい手法を提案する。
標準設定とゼロショット設定の両方で画像分類の性能について検討する。
- 参考スコア(独自算出の注目度): 3.2734466030053175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel approach to improve a visual-semantic embedding model by
incorporating concept representations captured from an external structured
knowledge base. We investigate its performance on image classification under
both standard and zero-shot settings. We propose two novel evaluation
frameworks to analyse classification errors with respect to the class hierarchy
indicated by the knowledge base. The approach is tested using the ILSVRC 2012
image dataset and a WordNet knowledge base. With respect to both standard and
zero-shot image classification, our approach shows superior performance
compared with the original approach, which uses word embeddings.
- Abstract(参考訳): 外部構造知識ベースから取得した概念表現を組み込むことにより,視覚意味埋め込みモデルを改善する新しい手法を提案する。
標準およびゼロショット設定における画像分類の性能について検討する。
知識ベースで示されるクラス階層に関して分類誤差を分析するための2つの新しい評価フレームワークを提案する。
このアプローチは、ilsvrc 2012イメージデータセットとwordnetナレッジベースを使用してテストされる。
標準画像分類とゼロショット画像分類の両方に関して,本手法は,単語埋め込みを用いた従来の手法に比べて優れた性能を示す。
関連論文リスト
- MBInception: A new Multi-Block Inception Model for Enhancing Image Processing Efficiency [3.3748750222488657]
本稿では,畳み込みニューラルネットワークフレームワーク内で連続する3つの開始ブロックを用いた,革新的な画像分類モデルを提案する。
モデルとVisual Geometry Group、Residual Network、MobileNetといった確立したアーキテクチャを比較した。
その結果、私たちの新しいモデルは、さまざまなデータセットで一貫してそのモデルよりも優れています。
論文 参考訳(メタデータ) (2024-12-18T10:46:04Z) - Language Model as Visual Explainer [72.88137795439407]
本稿では,木構造言語学的説明を用いた視覚モデル解釈のための体系的アプローチを提案する。
提案手法は,属性を付与した木の形で人間に理解可能な説明を提供する。
提案手法の有効性を確認するため,新しいベンチマークを導入し,厳密な評価を行う。
論文 参考訳(メタデータ) (2024-12-08T20:46:23Z) - Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - Contextuality Helps Representation Learning for Generalized Category Discovery [5.885208652383516]
本稿では、文脈性の概念を活用することにより、一般化カテゴリー発見(GCD)への新たなアプローチを提案する。
我々のモデルでは,コントラスト学習に最も近いコンテキストが使用されるインスタンスレベルと,コントラスト学習を利用するクラスタレベルという,2つのコンテキストレベルを統合している。
文脈情報の統合は、特徴学習を効果的に改善し、その結果、すべてのカテゴリの分類精度が向上する。
論文 参考訳(メタデータ) (2024-07-29T07:30:41Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Progressive Tree-Structured Prototype Network for End-to-End Image
Captioning [74.8547752611337]
本稿では,新しいプログレッシブツリー構造型プロトタイプネットワーク(PTSN)を提案する。
PTSNは、階層的テキスト意味論をモデル化することによって、適切な意味論で予測語の範囲を狭める最初の試みである。
提案手法は,144.2%(シングルモデル),146.5%(4モデルのアンサンブル),141.4%(c5),143.9%(c40)のCIDErを公式オンラインテストサーバ上でスコアする。
論文 参考訳(メタデータ) (2022-11-17T11:04:00Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Ontology-based n-ball Concept Embeddings Informing Few-shot Image
Classification [5.247029505708008]
ViOCEは、ニューラルネットワークベースの視覚アーキテクチャに、$n$-ballの概念を組み込む形で、象徴的な知識を統合する。
本稿では,2つの標準ベンチマークにおいて,画像分類のタスクを用いてViOCEを評価し,優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-19T05:35:43Z) - Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。
一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。
実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2021-08-13T10:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。