論文の概要: Are "Hierarchical" Visual Representations Hierarchical?
- arxiv url: http://arxiv.org/abs/2311.05784v2
- Date: Thu, 23 Nov 2023 20:45:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 02:24:26.797999
- Title: Are "Hierarchical" Visual Representations Hierarchical?
- Title(参考訳): 階層的"視覚表現は階層的か?
- Authors: Ethan Shen, Ali Farhadi, Aditya Kusupati
- Abstract要約: 階層的」視覚表現は、視覚世界の基盤となる階層をモデル化することを目的としている。
HierNetは、ImageNetのBREEDsサブセットから3種類の階層にまたがる12のデータセットのスイートである。
- 参考スコア(独自算出の注目度): 42.50633217896189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned visual representations often capture large amounts of semantic
information for accurate downstream applications. Human understanding of the
world is fundamentally grounded in hierarchy. To mimic this and further improve
representation capabilities, the community has explored "hierarchical" visual
representations that aim at modeling the underlying hierarchy of the visual
world. In this work, we set out to investigate if hierarchical visual
representations truly capture the human perceived hierarchy better than
standard learned representations. To this end, we create HierNet, a suite of 12
datasets spanning 3 kinds of hierarchy from the BREEDs subset of ImageNet.
After extensive evaluation of Hyperbolic and Matryoshka Representations across
training setups, we conclude that they do not capture hierarchy any better than
the standard representations but can assist in other aspects like search
efficiency and interpretability. Our benchmark and the datasets are
open-sourced at https://github.com/ethanlshen/HierNet.
- Abstract(参考訳): 学習された視覚表現はしばしば、正確な下流アプリケーションのための大量の意味情報をキャプチャする。
世界に対する人間の理解は階層構造に根ざしている。
これを模倣し、さらに表現能力を改善するために、コミュニティは視覚世界の基盤となる階層をモデル化することを目的とした「階層的な」視覚表現を探求した。
本研究では,階層的視覚表現が標準的な学習表現よりも人間の知覚階層を本当に捉えているかを検討する。
この目的のために、ImageNetのBREEDsサブセットから3種類の階層にまたがる12のデータセットからなるHierNetを作成します。
トレーニング環境におけるハイパーボリック表現とマトリシカ表現の広範な評価の後, 階層構造が標準表現より優れているのではなく, 探索効率や解釈可能性などの他の側面を支援することができると結論付けた。
ベンチマークとデータセットはhttps://github.com/ethanlshen/HierNet.comで公開されている。
関連論文リスト
- Learning Visual Hierarchies with Hyperbolic Embeddings [28.35250955426006]
本稿では,ハイパーボリック空間におけるユーザ定義のマルチレベル視覚階層を,明示的な階層ラベルを必要とせずに符号化できる学習パラダイムを提案する。
階層的検索タスクの大幅な改善を示し、視覚的階層を捉える上でのモデルの有効性を示す。
論文 参考訳(メタデータ) (2024-11-26T14:58:06Z) - Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Improving Visual Recognition with Hyperbolical Visual Hierarchy Mapping [33.405667735101595]
我々は、事前訓練されたディープニューラルネットワーク(DNN)の構造的理解を高めるための視覚階層型マッパー(Hi-Mapper)を提案する。
Hi-Mapperは,1)確率密度のカプセル化による階層木の事前定義,2)新しい階層的コントラスト損失を伴う双曲空間における階層関係の学習により,視覚シーンの階層構造を解明する。
論文 参考訳(メタデータ) (2024-04-01T07:45:42Z) - HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding [18.95003393925676]
異なる階層レベルでカテゴリを分類する場合、従来のユニモーダルアプローチは主にイメージ機能に焦点を当て、複雑なシナリオにおける制限を明らかにする。
ビジョンランゲージモデル(VLM)とクラス階層を統合する最近の研究は、将来性を示しているが、階層関係を完全に活用するには至っていない。
本稿では,CLIPとグラフ表現学習による階層型クラス構造のより深い活用を効果的に組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T15:42:42Z) - OPERA: Omni-Supervised Representation Learning with Hierarchical
Supervisions [94.31804364707575]
我々は,Omni-suPErvised Representation leArning withhierarchical supervisions (OPERA) を解法として提案する。
画像ごとに階層的なプロキシ表現の集合を抽出し、対応するプロキシ表現に自己および全監督を課す。
畳み込みニューラルネットワークと視覚変換器の両方の実験は、画像分類、セグメンテーション、オブジェクト検出におけるOPERAの優位性を実証している。
論文 参考訳(メタデータ) (2022-10-11T15:51:31Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Modeling Heterogeneous Hierarchies with Relation-specific Hyperbolic
Cones [64.75766944882389]
知識グラフにおける複数の階層的および非階層的関係を同時にモデル化できるKG埋め込みモデルであるConE(Cone Embedding)を提案する。
特に、ConEは双曲埋め込み空間の異なる部分空間における円錐包含制約を用いて、複数の異種階層をキャプチャする。
我々のアプローチでは、WN18RRで45.3%、DDB14で16.1%の新しい最先端hits@1が得られる(0.231 MRR)。
論文 参考訳(メタデータ) (2021-10-28T07:16:08Z) - SHERLock: Self-Supervised Hierarchical Event Representation Learning [22.19386609894017]
本研究では,長時間の視覚的実演データから時間的表現を学習するモデルを提案する。
提案手法は,人間による注釈付きイベントとより緊密に一致した表現階層を生成する。
論文 参考訳(メタデータ) (2020-10-06T09:04:01Z) - Global-Local Bidirectional Reasoning for Unsupervised Representation
Learning of 3D Point Clouds [109.0016923028653]
局所構造とグローバル形状の双方向推論による点雲表現を人間の監督なしに学習する。
本研究では, 実世界の3次元オブジェクト分類データセットにおいて, 教師なしモデルが最先端の教師付き手法を超越していることを示す。
論文 参考訳(メタデータ) (2020-03-29T08:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。