Fugu-MT 論文翻訳(概要): Improving Visual Recognition with Hyperbolical Visual Hierarchy Mapping

論文の概要: Improving Visual Recognition with Hyperbolical Visual Hierarchy Mapping

arxiv url: http://arxiv.org/abs/2404.00974v1
Date: Mon, 1 Apr 2024 07:45:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 23:06:39.305972
Title: Improving Visual Recognition with Hyperbolical Visual Hierarchy Mapping
Title（参考訳）: 双曲型視覚階層マッピングによる視覚認識の改善
Authors: Hyeongjun Kwon, Jinhyun Jang, Jin Kim, Kwonyoung Kim, Kwanghoon Sohn,
Abstract要約: 我々は、事前訓練されたディープニューラルネットワーク(DNN)の構造的理解を高めるための視覚階層型マッパー(Hi-Mapper)を提案する。 Hi-Mapperは,1)確率密度のカプセル化による階層木の事前定義,2)新しい階層的コントラスト損失を伴う双曲空間における階層関係の学習により,視覚シーンの階層構造を解明する。
参考スコア（独自算出の注目度）: 33.405667735101595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual scenes are naturally organized in a hierarchy, where a coarse semantic is recursively comprised of several fine details. Exploring such a visual hierarchy is crucial to recognize the complex relations of visual elements, leading to a comprehensive scene understanding. In this paper, we propose a Visual Hierarchy Mapper (Hi-Mapper), a novel approach for enhancing the structured understanding of the pre-trained Deep Neural Networks (DNNs). Hi-Mapper investigates the hierarchical organization of the visual scene by 1) pre-defining a hierarchy tree through the encapsulation of probability densities; and 2) learning the hierarchical relations in hyperbolic space with a novel hierarchical contrastive loss. The pre-defined hierarchy tree recursively interacts with the visual features of the pre-trained DNNs through hierarchy decomposition and encoding procedures, thereby effectively identifying the visual hierarchy and enhancing the recognition of an entire scene. Extensive experiments demonstrate that Hi-Mapper significantly enhances the representation capability of DNNs, leading to an improved performance on various tasks, including image classification and dense prediction tasks.
Abstract（参考訳）: 視覚シーンは階層構造で自然に整理され、粗いセマンティックはいくつかの細部から再帰的に構成される。このような視覚的階層の探索は、視覚的要素の複雑な関係を認識するために不可欠である。本稿では,事前学習したディープニューラルネットワーク(DNN)の構造的理解を高めるための新しい手法として,ビジュアル階層マップ(Hi-Mapper)を提案する。 Hi-Mapperは視覚シーンの階層構造を調査する 1) 確率密度のカプセル化による階層木の事前定義,及び 2) 双曲空間における階層的関係を新しい階層的コントラスト的損失で学習する。予め定義された階層木は、階層分解と符号化手順を通じて、事前訓練されたDNNの視覚的特徴と再帰的に相互作用し、視覚的階層を効果的に識別し、シーン全体の認識を高める。大規模な実験により、Hi-MapperはDNNの表現能力を著しく向上し、画像分類や高密度予測タスクを含む様々なタスクのパフォーマンスが向上することが示された。

関連論文リスト

Hierarchical Cross-modal Prompt Learning for Vision-Language Models [9.128564580725627]
HiCroPLは階層型クロスモーダルなPrompt Learningフレームワークである。テキストと視覚の相補的な強みを活用して知識の流れを導出する。 11のベンチマークで最先端の結果が得られ、大幅な改善がなされている。
論文参考訳（メタデータ） (2025-07-20T14:18:04Z)
Learning and Evaluating Hierarchical Feature Representations [3.770103075126785]
我々は、直交部分空間の階層的構成(Hier-COS)という新しい枠組みを提案する。 Hier-COSは、与えられた分類木の構造と整合した設計により、深い特徴埋め込みをベクトル空間にマッピングすることを学ぶ。 Hier-COSはすべてのデータセットにまたがって最先端の階層的パフォーマンスを実現し,同時に1つのケースを除いてトップ1の精度を上回ります。
論文参考訳（メタデータ） (2025-03-10T20:59:41Z)
Learning Visual Hierarchies with Hyperbolic Embeddings [28.35250955426006]
本稿では,ハイパーボリック空間におけるユーザ定義のマルチレベル視覚階層を,明示的な階層ラベルを必要とせずに符号化できる学習パラダイムを提案する。階層的検索タスクの大幅な改善を示し、視覚的階層を捉える上でのモデルの有効性を示す。
論文参考訳（メタデータ） (2024-11-26T14:58:06Z)
Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文参考訳（メタデータ） (2024-08-27T12:53:25Z)
Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。 RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文参考訳（メタデータ） (2024-05-17T07:48:27Z)
Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文参考訳（メタデータ） (2024-03-21T17:58:56Z)
HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding [18.95003393925676]
異なる階層レベルでカテゴリを分類する場合、従来のユニモーダルアプローチは主にイメージ機能に焦点を当て、複雑なシナリオにおける制限を明らかにする。ビジョンランゲージモデル(VLM)とクラス階層を統合する最近の研究は、将来性を示しているが、階層関係を完全に活用するには至っていない。本稿では,CLIPとグラフ表現学習による階層型クラス構造のより深い活用を効果的に組み合わせた新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-23T15:42:42Z)
Are "Hierarchical" Visual Representations Hierarchical? [42.50633217896189]
階層的」視覚表現は、視覚世界の基盤となる階層をモデル化することを目的としている。 HierNetは、ImageNetのBREEDsサブセットから3種類の階層にまたがる12のデータセットのスイートである。
論文参考訳（メタデータ） (2023-11-09T23:25:29Z)
Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文参考訳（メタデータ） (2023-05-06T03:57:05Z)
ExpNet: A unified network for Expert-Level Classification [40.109357254623085]
本稿では,エキスパートレベル分類におけるユニークな課題に,統一ネットワークを通じて対処する専門家ネットワーク(ExpNet)を提案する。 ExpNetでは、部分とコンテキストの特徴を階層的に分離し、Gaze-Shiftと呼ばれる新しい注意機構を使って個別に処理します。本研究は、FGVC、疾患分類、アートワーク属性分類の3つの代表的な専門家レベル分類タスクについて、実験を行った。
論文参考訳（メタデータ） (2022-11-29T12:20:25Z)
Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。 HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文参考訳（メタデータ） (2022-03-27T15:47:44Z)
Auto-Parsing Network for Image Captioning and Visual Question Answering [101.77688388554097]
本稿では,入力データの隠れ木構造を発見し,活用するための自動パーシングネットワーク(APN)を提案する。具体的には、各自己注意層における注意操作によってパラメータ化された確率的グラフモデル(PGM)を課し、スパース仮定を組み込む。
論文参考訳（メタデータ） (2021-08-24T08:14:35Z)
Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。 ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文参考訳（メタデータ） (2021-03-19T18:13:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。