Fugu-MT 論文翻訳(概要): Visual-Semantic Embedding Model Informed by Structured Knowledge

論文の概要: Visual-Semantic Embedding Model Informed by Structured Knowledge

arxiv url: http://arxiv.org/abs/2009.10026v1
Date: Mon, 21 Sep 2020 17:04:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-16 03:58:38.455022
Title: Visual-Semantic Embedding Model Informed by Structured Knowledge
Title（参考訳）: 構造化知識を用いた視覚意味埋め込みモデル
Authors: Mirantha Jayathilaka, Tingting Mu, Uli Sattler
Abstract要約: 本稿では,外部構造的知識ベースから取得した概念表現を組み込むことにより,視覚意味の埋め込みモデルを改善する新しい手法を提案する。標準設定とゼロショット設定の両方で画像分類の性能について検討する。
参考スコア（独自算出の注目度）: 3.2734466030053175
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel approach to improve a visual-semantic embedding model by incorporating concept representations captured from an external structured knowledge base. We investigate its performance on image classification under both standard and zero-shot settings. We propose two novel evaluation frameworks to analyse classification errors with respect to the class hierarchy indicated by the knowledge base. The approach is tested using the ILSVRC 2012 image dataset and a WordNet knowledge base. With respect to both standard and zero-shot image classification, our approach shows superior performance compared with the original approach, which uses word embeddings.
Abstract（参考訳）: 外部構造知識ベースから取得した概念表現を組み込むことにより,視覚意味埋め込みモデルを改善する新しい手法を提案する。標準およびゼロショット設定における画像分類の性能について検討する。知識ベースで示されるクラス階層に関して分類誤差を分析するための2つの新しい評価フレームワークを提案する。このアプローチは、ilsvrc 2012イメージデータセットとwordnetナレッジベースを使用してテストされる。標準画像分類とゼロショット画像分類の両方に関して,本手法は,単語埋め込みを用いた従来の手法に比べて優れた性能を示す。

関連論文リスト

MBInception: A new Multi-Block Inception Model for Enhancing Image Processing Efficiency [3.3748750222488657]
本稿では,畳み込みニューラルネットワークフレームワーク内で連続する3つの開始ブロックを用いた,革新的な画像分類モデルを提案する。モデルとVisual Geometry Group、Residual Network、MobileNetといった確立したアーキテクチャを比較した。その結果、私たちの新しいモデルは、さまざまなデータセットで一貫してそのモデルよりも優れています。
論文参考訳（メタデータ） (2024-12-18T10:46:04Z)
Language Model as Visual Explainer [72.88137795439407]
本稿では,木構造言語学的説明を用いた視覚モデル解釈のための体系的アプローチを提案する。提案手法は,属性を付与した木の形で人間に理解可能な説明を提供する。提案手法の有効性を確認するため,新しいベンチマークを導入し,厳密な評価を行う。
論文参考訳（メタデータ） (2024-12-08T20:46:23Z)
Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-05T18:52:00Z)
Contextuality Helps Representation Learning for Generalized Category Discovery [5.885208652383516]
本稿では、文脈性の概念を活用することにより、一般化カテゴリー発見(GCD)への新たなアプローチを提案する。我々のモデルでは,コントラスト学習に最も近いコンテキストが使用されるインスタンスレベルと,コントラスト学習を利用するクラスタレベルという,2つのコンテキストレベルを統合している。文脈情報の統合は、特徴学習を効果的に改善し、その結果、すべてのカテゴリの分類精度が向上する。
論文参考訳（メタデータ） (2024-07-29T07:30:41Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文参考訳（メタデータ） (2024-05-08T03:13:20Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Progressive Tree-Structured Prototype Network for End-to-End Image Captioning [74.8547752611337]
本稿では,新しいプログレッシブツリー構造型プロトタイプネットワーク(PTSN)を提案する。 PTSNは、階層的テキスト意味論をモデル化することによって、適切な意味論で予測語の範囲を狭める最初の試みである。提案手法は,144.2%(シングルモデル),146.5%(4モデルのアンサンブル),141.4%(c5),143.9%(c40)のCIDErを公式オンラインテストサーバ上でスコアする。
論文参考訳（メタデータ） (2022-11-17T11:04:00Z)
VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文参考訳（メタデータ） (2022-03-20T03:49:02Z)
Ontology-based n-ball Concept Embeddings Informing Few-shot Image Classification [5.247029505708008]
ViOCEは、ニューラルネットワークベースの視覚アーキテクチャに、$n$-ballの概念を組み込む形で、象徴的な知識を統合する。本稿では,2つの標準ベンチマークにおいて,画像分類のタスクを用いてViOCEを評価し,優れた性能を示す。
論文参考訳（メタデータ） (2021-09-19T05:35:43Z)
Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文参考訳（メタデータ） (2021-08-13T10:43:20Z)
Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文参考訳（メタデータ） (2020-04-02T10:22:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。