論文の概要: Stitching Gaps: Fusing Situated Perceptual Knowledge with Vision
Transformers for High-Level Image Classification
- arxiv url: http://arxiv.org/abs/2402.19339v1
- Date: Thu, 29 Feb 2024 16:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:57:09.266217
- Title: Stitching Gaps: Fusing Situated Perceptual Knowledge with Vision
Transformers for High-Level Image Classification
- Title(参考訳): ステッチングギャップ:高レベル画像分類のための視覚トランスフォーマーを用いた位置知覚知識の活用
- Authors: Delfina Sol Martinez Pandiani, Nicolas Lazzari, Valentina Presutti
- Abstract要約: 我々は,交流画像分類の性能と解釈性を高めるために,文化的イメージの位置認識的知識を活用する。
このリソースは、ACでラベル付けされた14,000以上の文化画像から得られた知覚的セマンティクスをキャプチャする。
本稿では,KGE埋め込みの知覚的知識と深部視覚モデルの知覚的知覚的理解の相乗効果と相補性を示す。
- 参考スコア(独自算出の注目度): 0.1843404256219181
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The increasing demand for automatic high-level image understanding,
particularly in detecting abstract concepts (AC) within images, underscores the
necessity for innovative and more interpretable approaches. These approaches
need to harmonize traditional deep vision methods with the nuanced,
context-dependent knowledge humans employ to interpret images at intricate
semantic levels. In this work, we leverage situated perceptual knowledge of
cultural images to enhance performance and interpretability in AC image
classification. We automatically extract perceptual semantic units from images,
which we then model and integrate into the ARTstract Knowledge Graph (AKG).
This resource captures situated perceptual semantics gleaned from over 14,000
cultural images labeled with ACs. Additionally, we enhance the AKG with
high-level linguistic frames. We compute KG embeddings and experiment with
relative representations and hybrid approaches that fuse these embeddings with
visual transformer embeddings. Finally, for interpretability, we conduct
posthoc qualitative analyses by examining model similarities with training
instances. Our results show that our hybrid KGE-ViT methods outperform existing
techniques in AC image classification. The posthoc interpretability analyses
reveal the visual transformer's proficiency in capturing pixel-level visual
attributes, contrasting with our method's efficacy in representing more
abstract and semantic scene elements. We demonstrate the synergy and
complementarity between KGE embeddings' situated perceptual knowledge and deep
visual model's sensory-perceptual understanding for AC image classification.
This work suggests a strong potential of neuro-symbolic methods for knowledge
integration and robust image representation for use in downstream intricate
visual comprehension tasks. All the materials and code are available online.
- Abstract(参考訳): 画像中の抽象概念(AC)を検出する場合,特に高レベル画像の自動理解の需要が高まっており,革新的で解釈可能なアプローチの必要性が浮き彫りになっている。
これらのアプローチは、人間が複雑なセマンティックレベルで画像の解釈に使っているニュアンスで文脈に依存した知識と、従来のディープビジョン手法を調和させる必要がある。
本研究では,文化イメージの知覚的知識を活用し,交流画像分類の性能と解釈性を高める。
画像から知覚意味単位を自動的に抽出し、Artstract Knowledge Graph(AKG)にモデル化して統合する。
このリソースは、ACでラベル付けされた14,000以上の文化画像から得られた知覚的セマンティクスをキャプチャする。
さらに,高水準の言語フレームでakgを増強する。
kg組込みを計算し,これらの組込みと視覚トランスフォーマー組込みを融合させる相対表現とハイブリッドアプローチを実験する。
最後に, モデル類似性とトレーニングインスタンスとの関係を調べた後定性解析を行った。
我々のハイブリッドKGE-ViT法は,AC画像分類における既存の手法よりも優れていた。
ポストホック解析により,より抽象的でセマンティックなシーン要素を表現する上での手法の有効性とは対照的に,画素レベルの視覚特性を捉える際の視覚変換器の習熟度が明らかになった。
本稿では,KGE埋め込みの知覚的知識と深部視覚モデルの知覚的知覚的理解の相乗効果と相補性を示す。
この研究は、下流の複雑な視覚的理解タスクにおいて、知識統合のためのニューロシンボリック手法と堅牢な画像表現の強い可能性を示している。
すべての資料とコードはオンラインで入手できる。
関連論文リスト
- Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - Knowledge Fused Recognition: Fusing Hierarchical Knowledge for Image Recognition through Quantitative Relativity Modeling and Deep Metric Learning [18.534970504136254]
画像クラスに関する階層的な事前知識を融合させるための,新しい深層計量学習手法を提案する。
画像分類を組み込んだ既存の深度学習は、主に画像クラス間の定性的相対性を利用している。
モデル潜在空間における量的相対性を利用して知識空間における距離を整列する新しい三重項損失関数項も提案され、提案された双対モダリティ融合法に組み込まれている。
論文 参考訳(メタデータ) (2024-07-30T07:24:33Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - CEIR: Concept-based Explainable Image Representation Learning [0.4198865250277024]
本稿では,概念に基づく説明可能な画像表現(CEIR)を導入し,ラベルに依存しない高品質な表現を導出する。
提案手法は, CIFAR10, CIFAR100, STL10などのベンチマーク上で, 最先端の非教師付きクラスタリング性能を示す。
CEIRは、微調整なしで、オープンワールドイメージから関連概念をシームレスに抽出することができる。
論文 参考訳(メタデータ) (2023-12-17T15:37:41Z) - Analyzing Vision Transformers for Image Classification in Class
Embedding Space [5.210197476419621]
この研究は、画像分類タスクを解決するために訓練されたビジョン変換器をリバースエンジニアリングする手法を導入する。
NLPにおける過去の研究に触発されて、階層の任意のレベルにおける内部表現が、学習したクラス空間にどのように投影できるかを実証した。
我々は,画像トークンが注意機構や文脈情報に依存するクラス固有の表現をどのように発達させるかを示すために,我々のフレームワークを使用する。
論文 参考訳(メタデータ) (2023-10-29T10:25:23Z) - Seeing the Intangible: Survey of Image Classification into High-Level
and Abstract Categories [0.20718016474717196]
コンピュータビジョン(CV)の分野は、高レベルの視覚感覚タスクへとシフトしつつある。
本稿では,画像の自動分類における抽象概念(AC)に着目し,高レベルの視覚的理解に関する研究を体系的にレビューする。
論文 参考訳(メタデータ) (2023-08-21T08:37:04Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - ExCon: Explanation-driven Supervised Contrastive Learning for Image
Classification [12.109442912963969]
本稿では,サリエンシに基づく説明手法を活用して,コンテント保存型マスク強化によるコントラスト学習を提案する。
提案手法は, 近距離画像の埋め込みに類似した内容と説明を与えるという2つの目的を, 批判的に果たすものである。
ExConは、分類、説明品質、対向ロバスト性、および分布シフトの文脈におけるモデルの確率的予測のキャリブレーションの観点から、バニラ指導によるコントラスト学習より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。