論文の概要: Seeing the Intangible: Surveying Automatic High-Level Visual
Understanding from Still Images
- arxiv url: http://arxiv.org/abs/2308.10562v1
- Date: Mon, 21 Aug 2023 08:37:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 14:17:54.411567
- Title: Seeing the Intangible: Surveying Automatic High-Level Visual
Understanding from Still Images
- Title(参考訳): 見えないものを見る:静止画像からの高レベル視覚理解
- Authors: Delfina Sol Martinez Pandiani and Valentina Presutti
- Abstract要約: コンピュータビジョンの分野は、入力画像の完全な意味論的解釈を提供することを目的として生まれた。
感情、社会的価値観、イデオロギーを含む非矛盾概念は、この「高いレベルの」視覚的意味理解の主人公であるようである。
このような「抽象概念」は画像管理と検索にとって重要なツールであるが、その自動認識は依然として課題である。
- 参考スコア(独自算出の注目度): 0.20718016474717196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of Computer Vision (CV) was born with the single grand goal of
complete image understanding: providing a complete semantic interpretation of
an input image. What exactly this goal entails is not immediately
straightforward, but theoretical hierarchies of visual understanding point
towards a top level of full semantics, within which sits the most complex and
subjective information humans can detect from visual data. In particular,
non-concrete concepts including emotions, social values and ideologies seem to
be protagonists of this "high-level" visual semantic understanding. While such
"abstract concepts" are critical tools for image management and retrieval,
their automatic recognition is still a challenge, exactly because they rest at
the top of the "semantic pyramid": the well-known semantic gap problem is
worsened given their lack of unique perceptual referents, and their reliance on
more unspecific features than concrete concepts. Given that there seems to be
very scarce explicit work within CV on the task of abstract social concept
(ASC) detection, and that many recent works seem to discuss similar
non-concrete entities by using different terminology, in this survey we provide
a systematic review of CV work that explicitly or implicitly approaches the
problem of abstract (specifically social) concept detection from still images.
Specifically, this survey performs and provides: (1) A study and clustering of
high level visual understanding semantic elements from a multidisciplinary
perspective (computer science, visual studies, and cognitive perspectives); (2)
A study and clustering of high level visual understanding computer vision tasks
dealing with the identified semantic elements, so as to identify current CV
work that implicitly deals with AC detection.
- Abstract(参考訳): コンピュータビジョン(CV)の分野は、入力画像の完全な意味論的解釈を提供する、完全なイメージ理解という単一の大目標から生まれた。
この目標が正確に何を意味するのかは、すぐには簡単ではないが、視覚理解の理論的階層は、人間の視覚データから検出できる最も複雑で主観的な情報である全意味論の最上位レベルに向かっている。
特に、感情、社会的価値観、イデオロギーを含む非コンクリート的な概念は、この「高水準」な視覚的意味理解の主人公であるように見える。
このような「抽象概念」はイメージ管理と検索にとって重要なツールであるが、それらの自動認識は「セマンティックピラミッド」の頂点に置かれているため、依然として課題である。
抽象的社会概念検出(ASC)の課題において,CV内には明確な作業がほとんど存在せず,また,近年の多くの研究が,異なる用語を用いて類似の非整合体を議論しているように見えることから,本調査では,抽象的(特に社会的な)概念検出の問題に対して,抽象的(特に社会的な)概念検出の問題に明示的にあるいは暗黙的にアプローチするCV作業の体系的レビューを行う。
具体的には,(1)多分野の視点(コンピュータ科学,視覚研究,認知的視点)からハイレベルな視覚理解の意味要素のクラスタリング,(2)識別された意味要素を扱うハイレベルな視覚理解コンピュータビジョンタスクの研究とクラスタリングにより,AC検出に暗黙的に対処する現在のCV作業を特定する。
関連論文リスト
- Stitching Gaps: Fusing Situated Perceptual Knowledge with Vision
Transformers for High-Level Image Classification [0.1843404256219181]
我々は,交流画像分類の性能と解釈性を高めるために,文化的イメージの位置認識的知識を活用する。
このリソースは、ACでラベル付けされた14,000以上の文化画像から得られた知覚的セマンティクスをキャプチャする。
本稿では,KGE埋め込みの知覚的知識と深部視覚モデルの知覚的知覚的理解の相乗効果と相補性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:46:48Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - EnTri: Ensemble Learning with Tri-level Representations for Explainable Scene Recognition [27.199124692225777]
ディープラーニングに基づくシーン認識は大きな進歩を遂げているが、その性能にはまだ限界がある。
本稿では,視覚的特徴の階層構造を用いたアンサンブル学習フレームワークであるEnTriを提案する。
EnTriは認識精度の点で優れており、最先端のアプローチと比較して競争性能が向上している。
論文 参考訳(メタデータ) (2023-07-23T22:11:23Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - ExpNet: A unified network for Expert-Level Classification [40.109357254623085]
本稿では,エキスパートレベル分類におけるユニークな課題に,統一ネットワークを通じて対処する専門家ネットワーク(ExpNet)を提案する。
ExpNetでは、部分とコンテキストの特徴を階層的に分離し、Gaze-Shiftと呼ばれる新しい注意機構を使って個別に処理します。
本研究は、FGVC、疾患分類、アートワーク属性分類の3つの代表的な専門家レベル分類タスクについて、実験を行った。
論文 参考訳(メタデータ) (2022-11-29T12:20:25Z) - A Survey on Evolutionary Computation for Computer Vision and Image
Analysis: Past, Present, and Future Trends [6.48586558584924]
異なるアプローチの貢献について議論することで、進化的コンピュータビジョン(ECV)をよりよく理解することを目的としている。
この研究分野に関連する応用、課題、課題、傾向についても論じ、まとめる。
論文 参考訳(メタデータ) (2022-09-14T03:35:25Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Task-Independent Knowledge Makes for Transferable Representations for
Generalized Zero-Shot Learning [77.0715029826957]
一般化されたゼロショット学習(GZSL)は、転送可能な画像表現を学習することによって新しいカテゴリを認識する。
タスク固有とタスク非依存の知識を同時に学習する新しいデュアルコントラスト埋め込みネットワーク(DCEN)を提案する。
論文 参考訳(メタデータ) (2021-04-05T10:05:48Z) - Deep Learning for Scene Classification: A Survey [48.57123373347695]
シーン分類は、コンピュータビジョンにおける長年の、根本的かつ挑戦的な問題である。
大規模データセットの出現と深層学習技術のルネッサンスは、シーン表現と分類の分野において顕著な進歩をもたらした。
本稿では,深層学習によるシーン分類における最近の成果を総合的に調査する。
論文 参考訳(メタデータ) (2021-01-26T03:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。