論文の概要: HVT: A Comprehensive Vision Framework for Learning in Non-Euclidean Space
- arxiv url: http://arxiv.org/abs/2409.16897v1
- Date: Wed, 25 Sep 2024 13:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 03:45:10.470038
- Title: HVT: A Comprehensive Vision Framework for Learning in Non-Euclidean Space
- Title(参考訳): HVT:非ユークリッド空間での学習のための総合視覚フレームワーク
- Authors: Jacob Fein-Ashley, Ethan Feng, Minh Pham,
- Abstract要約: 本稿では、双曲幾何学を統合した視覚変換器(ViT)の新たな拡張である、双曲型視覚変換器(HVT)を紹介する。
従来のViTはユークリッド空間で作用するが、この手法は双曲的距離とM"オビウス変換を活用することにより自己認識機構を強化する。
厳密な数学的定式化を行い、双曲幾何学を注意層、フィードフォワードネットワーク、最適化に組み込む方法を示す。
- 参考スコア(独自算出の注目度): 1.1858475445768824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data representation in non-Euclidean spaces has proven effective for capturing hierarchical and complex relationships in real-world datasets. Hyperbolic spaces, in particular, provide efficient embeddings for hierarchical structures. This paper introduces the Hyperbolic Vision Transformer (HVT), a novel extension of the Vision Transformer (ViT) that integrates hyperbolic geometry. While traditional ViTs operate in Euclidean space, our method enhances the self-attention mechanism by leveraging hyperbolic distance and M\"obius transformations. This enables more effective modeling of hierarchical and relational dependencies in image data. We present rigorous mathematical formulations, showing how hyperbolic geometry can be incorporated into attention layers, feed-forward networks, and optimization. We offer improved performance for image classification using the ImageNet dataset.
- Abstract(参考訳): 非ユークリッド空間におけるデータ表現は、実世界のデータセットにおける階層的および複雑な関係を捉えるのに有効であることが証明されている。
特に双曲空間は階層構造に対する効率的な埋め込みを提供する。
本稿では、双曲幾何学を統合した視覚変換器(ViT)の新たな拡張である、双曲型視覚変換器(HVT)を紹介する。
従来のViTはユークリッド空間で作用するが、この手法は双曲的距離と「M\」ビウス変換を活用することにより自己認識機構を強化する。
これにより、画像データの階層的および関係的な依存関係をより効果的にモデリングできる。
厳密な数学的定式化を行い、双曲幾何学を注意層、フィードフォワードネットワーク、最適化に組み込む方法を示す。
ImageNetデータセットを用いた画像分類の性能改善を行った。
関連論文リスト
- Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Dynamic Hyperbolic Attention Network for Fine Hand-object Reconstruction [76.5549647815413]
ハイパボリック空間,すなわち動的ハイパボリック注意ネットワーク(DHANet)における最初の正確な手オブジェクト再構成手法を提案する。
本手法は,マルチモーダル情報によりメッシュ特性を学習し,手動物体の相互作用をより良くモデル化する。
論文 参考訳(メタデータ) (2023-09-06T13:00:10Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Complex Hyperbolic Knowledge Graph Embeddings with Fast Fourier
Transform [29.205221688430733]
知識グラフ(KG)埋め込みのための幾何学的空間の選択は、KG完了タスクの性能に大きな影響を与える。
複雑な双曲型幾何学の最近の研究は、様々な階層構造を捉えるための双曲型埋め込みをさらに改善した。
本稿では,マルチリレーショナルKG埋め込みにおける複素双曲幾何学の表現能力を活用することを目的とする。
論文 参考訳(メタデータ) (2022-11-07T15:46:00Z) - AMCAD: Adaptive Mixed-Curvature Representation based Advertisement
Retrieval System [18.07821800367287]
非ユークリッド空間における複素および異種グラフ構造を自動的にキャプチャするウェブスケール適応型混合グラフ広告検索システム(AMCAD)を提案する。
ユーザ数億の最大のeコマースプラットフォームであるTaobaoにAMCADをデプロイするために,効率的な2層オンライン検索フレームワークを設計する。
論文 参考訳(メタデータ) (2022-03-28T12:29:30Z) - Enhancing Hyperbolic Graph Embeddings via Contrastive Learning [7.901082408569372]
複数の双曲空間を通してノード表現を学習する新しいハイパーボリックグラフコントラスト学習(HGCL)フレームワークを提案する。
複数の実世界のデータセットに対する実験結果は、提案したHGCLの優位性を示している。
論文 参考訳(メタデータ) (2022-01-21T06:10:05Z) - Nested Hyperbolic Spaces for Dimensionality Reduction and Hyperbolic NN
Design [8.250374560598493]
ハイパーボリックニューラルネットワークは、階層的なデータセットを効率的かつ効率的に表現できることから、近年人気がある。
これらのネットワークを開発する際の課題は、埋め込み空間、すなわち双曲空間の非線形性にある。
本稿では, 射影(埋め込み)の概念と, 内在的な凝集, 双曲空間内の非線形性を併用した, 完全双曲型ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-03T03:20:27Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Spatial-Spectral Clustering with Anchor Graph for Hyperspectral Image [88.60285937702304]
本稿では、HSIデータクラスタリングのための空間スペクトルクラスタリングとアンカーグラフ(SSCAG)という新しい非監視アプローチを提案する。
提案されたSSCAGは最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-04-24T08:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。