論文の概要: An Exploratory Study on Abstract Images and Visual Representations Learned from Them
- arxiv url: http://arxiv.org/abs/2509.14149v1
- Date: Wed, 17 Sep 2025 16:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.919737
- Title: An Exploratory Study on Abstract Images and Visual Representations Learned from Them
- Title(参考訳): テーマから学習した抽象画像と視覚表現の探索的研究
- Authors: Haotian Li, Jianbo Jiao,
- Abstract要約: このパフォーマンスギャップの背景にある理由を考察し、抽象レベルでのハイレベルなセマンティックコンテンツをどの程度キャプチャできるかを考察する。
次に、分類、セグメンテーション、オブジェクト検出など様々なタスクにわたって、HAID上の従来の視覚システムを訓練し評価する。
また、抽象画像が視覚意味情報を伝達し、視覚タスクに寄与する潜在的に効果的なフォーマットとして考えられるかどうかについても論じる。
- 参考スコア(独自算出の注目度): 27.912006389955945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imagine living in a world composed solely of primitive shapes, could you still recognise familiar objects? Recent studies have shown that abstract images-constructed by primitive shapes-can indeed convey visual semantic information to deep learning models. However, representations obtained from such images often fall short compared to those derived from traditional raster images. In this paper, we study the reasons behind this performance gap and investigate how much high-level semantic content can be captured at different abstraction levels. To this end, we introduce the Hierarchical Abstraction Image Dataset (HAID), a novel data collection that comprises abstract images generated from normal raster images at multiple levels of abstraction. We then train and evaluate conventional vision systems on HAID across various tasks including classification, segmentation, and object detection, providing a comprehensive study between rasterised and abstract image representations. We also discuss if the abstract image can be considered as a potentially effective format for conveying visual semantic information and contributing to vision tasks.
- Abstract(参考訳): 原始的な形だけで構成された世界に住むことを想像してみてください。
近年の研究では、原始的な形状で構築された抽象的な画像が、視覚的な意味情報を深層学習モデルに伝達できることが示されている。
しかし、そのような画像から得られた表現は、伝統的なラスタ画像から得られた表現に比べて少ない場合が多い。
本稿では,この性能差の背景にある理由を考察し,抽象レベルでのハイレベルなセマンティックコンテンツをどの程度キャプチャできるかを考察する。
この目的のために、階層的抽象画像データセット (HAID) を導入し、複数の抽象化レベルにおいて通常のラスタ画像から生成された抽象画像を含む新しいデータコレクションについて紹介する。
次に、分類、セグメンテーション、オブジェクト検出など様々なタスクでHAID上の従来の視覚システムを訓練し、評価し、ラスタライズされた画像表現と抽象的な画像表現の総合的な研究を提供する。
また、抽象画像が視覚意味情報を伝達し、視覚タスクに寄与する潜在的に効果的なフォーマットとして考えられるかどうかについても論じる。
関連論文リスト
- What Makes a Maze Look Like a Maze? [92.80800000328277]
本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-09-12T16:41:47Z) - An Image-based Typology for Visualization [23.716718517642878]
可視化画像の質的解析に基づいて,画像に基づく可視化のタイプロジーを導出する。
その結果、画像の型付けは多くの目的に役立てることができる。
論文 参考訳(メタデータ) (2024-03-07T04:33:42Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - Understanding Cross-modal Interactions in V&L Models that Generate Scene
Descriptions [3.7957452405531256]
本稿では,現在最先端の視覚・言語モデルであるVinVLによる映像のシーンレベルでのキャプションの可能性について検討する。
映像中のオブジェクトレベルの概念を識別する能力を失うことなく、少量のキュレートされたデータでシーン記述を生成することができることを示す。
本研究は,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。
論文 参考訳(メタデータ) (2022-11-09T15:33:51Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。