論文の概要: Improving Visual Recognition with Hyperbolical Visual Hierarchy Mapping
- arxiv url: http://arxiv.org/abs/2404.00974v1
- Date: Mon, 1 Apr 2024 07:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 23:06:39.305972
- Title: Improving Visual Recognition with Hyperbolical Visual Hierarchy Mapping
- Title(参考訳): 双曲型視覚階層マッピングによる視覚認識の改善
- Authors: Hyeongjun Kwon, Jinhyun Jang, Jin Kim, Kwonyoung Kim, Kwanghoon Sohn,
- Abstract要約: 我々は、事前訓練されたディープニューラルネットワーク(DNN)の構造的理解を高めるための視覚階層型マッパー(Hi-Mapper)を提案する。
Hi-Mapperは,1)確率密度のカプセル化による階層木の事前定義,2)新しい階層的コントラスト損失を伴う双曲空間における階層関係の学習により,視覚シーンの階層構造を解明する。
- 参考スコア(独自算出の注目度): 33.405667735101595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual scenes are naturally organized in a hierarchy, where a coarse semantic is recursively comprised of several fine details. Exploring such a visual hierarchy is crucial to recognize the complex relations of visual elements, leading to a comprehensive scene understanding. In this paper, we propose a Visual Hierarchy Mapper (Hi-Mapper), a novel approach for enhancing the structured understanding of the pre-trained Deep Neural Networks (DNNs). Hi-Mapper investigates the hierarchical organization of the visual scene by 1) pre-defining a hierarchy tree through the encapsulation of probability densities; and 2) learning the hierarchical relations in hyperbolic space with a novel hierarchical contrastive loss. The pre-defined hierarchy tree recursively interacts with the visual features of the pre-trained DNNs through hierarchy decomposition and encoding procedures, thereby effectively identifying the visual hierarchy and enhancing the recognition of an entire scene. Extensive experiments demonstrate that Hi-Mapper significantly enhances the representation capability of DNNs, leading to an improved performance on various tasks, including image classification and dense prediction tasks.
- Abstract(参考訳): 視覚シーンは階層構造で自然に整理され、粗いセマンティックはいくつかの細部から再帰的に構成される。
このような視覚的階層の探索は、視覚的要素の複雑な関係を認識するために不可欠である。
本稿では,事前学習したディープニューラルネットワーク(DNN)の構造的理解を高めるための新しい手法として,ビジュアル階層マップ(Hi-Mapper)を提案する。
Hi-Mapperは視覚シーンの階層構造を調査する
1) 確率密度のカプセル化による階層木の事前定義,及び
2) 双曲空間における階層的関係を新しい階層的コントラスト的損失で学習する。
予め定義された階層木は、階層分解と符号化手順を通じて、事前訓練されたDNNの視覚的特徴と再帰的に相互作用し、視覚的階層を効果的に識別し、シーン全体の認識を高める。
大規模な実験により、Hi-MapperはDNNの表現能力を著しく向上し、画像分類や高密度予測タスクを含む様々なタスクのパフォーマンスが向上することが示された。
関連論文リスト
- Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding [18.95003393925676]
異なる階層レベルでカテゴリを分類する場合、従来のユニモーダルアプローチは主にイメージ機能に焦点を当て、複雑なシナリオにおける制限を明らかにする。
ビジョンランゲージモデル(VLM)とクラス階層を統合する最近の研究は、将来性を示しているが、階層関係を完全に活用するには至っていない。
本稿では,CLIPとグラフ表現学習による階層型クラス構造のより深い活用を効果的に組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T15:42:42Z) - Are "Hierarchical" Visual Representations Hierarchical? [42.50633217896189]
階層的」視覚表現は、視覚世界の基盤となる階層をモデル化することを目的としている。
HierNetは、ImageNetのBREEDsサブセットから3種類の階層にまたがる12のデータセットのスイートである。
論文 参考訳(メタデータ) (2023-11-09T23:25:29Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - ExpNet: A unified network for Expert-Level Classification [40.109357254623085]
本稿では,エキスパートレベル分類におけるユニークな課題に,統一ネットワークを通じて対処する専門家ネットワーク(ExpNet)を提案する。
ExpNetでは、部分とコンテキストの特徴を階層的に分離し、Gaze-Shiftと呼ばれる新しい注意機構を使って個別に処理します。
本研究は、FGVC、疾患分類、アートワーク属性分類の3つの代表的な専門家レベル分類タスクについて、実験を行った。
論文 参考訳(メタデータ) (2022-11-29T12:20:25Z) - Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。
HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。
階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文 参考訳(メタデータ) (2022-03-27T15:47:44Z) - Auto-Parsing Network for Image Captioning and Visual Question Answering [101.77688388554097]
本稿では,入力データの隠れ木構造を発見し,活用するための自動パーシングネットワーク(APN)を提案する。
具体的には、各自己注意層における注意操作によってパラメータ化された確率的グラフモデル(PGM)を課し、スパース仮定を組み込む。
論文 参考訳(メタデータ) (2021-08-24T08:14:35Z) - Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文 参考訳(メタデータ) (2021-03-19T18:13:35Z) - HOSE-Net: Higher Order Structure Embedded Network for Scene Graph
Generation [20.148175528691905]
本稿では,関係の局所的および大域的構造情報を出力空間に組み込むための新しい構造認識型組込み分類器(SEC)モジュールを提案する。
また,高次構造情報を導入して部分空間の数を減らし,階層的セマンティックアグリゲーション(HSA)モジュールを提案する。
提案したHOSE-Netは、Visual GenomeとVRDの2つの人気のあるベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-08-12T07:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。