論文の概要: Seeing the Intangible: Survey of Image Classification into High-Level
and Abstract Categories
- arxiv url: http://arxiv.org/abs/2308.10562v2
- Date: Thu, 29 Feb 2024 16:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:53:08.224045
- Title: Seeing the Intangible: Survey of Image Classification into High-Level
and Abstract Categories
- Title(参考訳): 目に見えないもの:高レベル・抽象カテゴリへの画像分類に関する調査
- Authors: Delfina Sol Martinez Pandiani and Valentina Presutti
- Abstract要約: コンピュータビジョン(CV)の分野は、高レベルの視覚感覚タスクへとシフトしつつある。
本稿では,画像の自動分類における抽象概念(AC)に着目し,高レベルの視覚的理解に関する研究を体系的にレビューする。
- 参考スコア(独自算出の注目度): 0.20718016474717196
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The field of Computer Vision (CV) is increasingly shifting towards
``high-level'' visual sensemaking tasks, yet the exact nature of these tasks
remains unclear and tacit. This survey paper addresses this ambiguity by
systematically reviewing research on high-level visual understanding, focusing
particularly on Abstract Concepts (ACs) in automatic image classification. Our
survey contributes in three main ways: Firstly, it clarifies the tacit
understanding of high-level semantics in CV through a multidisciplinary
analysis, and categorization into distinct clusters, including commonsense,
emotional, aesthetic, and inductive interpretative semantics. Secondly, it
identifies and categorizes computer vision tasks associated with high-level
visual sensemaking, offering insights into the diverse research areas within
this domain. Lastly, it examines how abstract concepts such as values and
ideologies are handled in CV, revealing challenges and opportunities in
AC-based image classification. Notably, our survey of AC image classification
tasks highlights persistent challenges, such as the limited efficacy of massive
datasets and the importance of integrating supplementary information and
mid-level features. We emphasize the growing relevance of hybrid AI systems in
addressing the multifaceted nature of AC image classification tasks. Overall,
this survey enhances our understanding of high-level visual reasoning in CV and
lays the groundwork for future research endeavors.
- Abstract(参考訳): コンピュータビジョン(CV)の分野はますます「ハイレベル」な視覚感覚タスクへとシフトしつつあるが、これらのタスクの正確な性質は明確で暗黙的である。
本稿では,高次視覚理解の研究を体系的にレビューし,特に画像の自動分類における抽象概念(AC)に着目した。
まず,多分野分析を通じてcvにおける高レベル意味論の暗黙の理解と,常識,感情的,美的,帰納的解釈的意味論を含む異なるクラスタへの分類を明らかにする。
第二に、ハイレベルな視覚センシングに関連するコンピュータビジョンタスクを特定し、分類し、このドメイン内のさまざまな研究領域に対する洞察を提供する。
最後に、CVにおける値やイデオロギーといった抽象概念の扱いについて検討し、AC画像分類における課題と機会を明らかにする。
特に,大規模データセットの有効性の制限や補足情報と中間レベルの機能の統合の重要性など,ac画像分類タスクに関する調査では,永続的な課題が強調されている。
我々は、AC画像分類タスクの多面的性質に対処する上で、ハイブリッドAIシステムの重要性の高まりを強調した。
本調査は,CVにおける高レベルの視覚的推論の理解を深め,今後の研究の基盤となるものとなる。
関連論文リスト
- Stitching Gaps: Fusing Situated Perceptual Knowledge with Vision
Transformers for High-Level Image Classification [0.1843404256219181]
我々は,交流画像分類の性能と解釈性を高めるために,文化的イメージの位置認識的知識を活用する。
このリソースは、ACでラベル付けされた14,000以上の文化画像から得られた知覚的セマンティクスをキャプチャする。
本稿では,KGE埋め込みの知覚的知識と深部視覚モデルの知覚的知覚的理解の相乗効果と相補性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:46:48Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - EnTri: Ensemble Learning with Tri-level Representations for Explainable Scene Recognition [27.199124692225777]
ディープラーニングに基づくシーン認識は大きな進歩を遂げているが、その性能にはまだ限界がある。
本稿では,視覚的特徴の階層構造を用いたアンサンブル学習フレームワークであるEnTriを提案する。
EnTriは認識精度の点で優れており、最先端のアプローチと比較して競争性能が向上している。
論文 参考訳(メタデータ) (2023-07-23T22:11:23Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - ExpNet: A unified network for Expert-Level Classification [40.109357254623085]
本稿では,エキスパートレベル分類におけるユニークな課題に,統一ネットワークを通じて対処する専門家ネットワーク(ExpNet)を提案する。
ExpNetでは、部分とコンテキストの特徴を階層的に分離し、Gaze-Shiftと呼ばれる新しい注意機構を使って個別に処理します。
本研究は、FGVC、疾患分類、アートワーク属性分類の3つの代表的な専門家レベル分類タスクについて、実験を行った。
論文 参考訳(メタデータ) (2022-11-29T12:20:25Z) - A Survey on Evolutionary Computation for Computer Vision and Image
Analysis: Past, Present, and Future Trends [6.48586558584924]
異なるアプローチの貢献について議論することで、進化的コンピュータビジョン(ECV)をよりよく理解することを目的としている。
この研究分野に関連する応用、課題、課題、傾向についても論じ、まとめる。
論文 参考訳(メタデータ) (2022-09-14T03:35:25Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Task-Independent Knowledge Makes for Transferable Representations for
Generalized Zero-Shot Learning [77.0715029826957]
一般化されたゼロショット学習(GZSL)は、転送可能な画像表現を学習することによって新しいカテゴリを認識する。
タスク固有とタスク非依存の知識を同時に学習する新しいデュアルコントラスト埋め込みネットワーク(DCEN)を提案する。
論文 参考訳(メタデータ) (2021-04-05T10:05:48Z) - Deep Learning for Scene Classification: A Survey [48.57123373347695]
シーン分類は、コンピュータビジョンにおける長年の、根本的かつ挑戦的な問題である。
大規模データセットの出現と深層学習技術のルネッサンスは、シーン表現と分類の分野において顕著な進歩をもたらした。
本稿では,深層学習によるシーン分類における最近の成果を総合的に調査する。
論文 参考訳(メタデータ) (2021-01-26T03:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。