論文の概要: HexFormer: Hyperbolic Vision Transformer with Exponential Map Aggregation
- arxiv url: http://arxiv.org/abs/2601.19849v1
- Date: Tue, 27 Jan 2026 17:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.427877
- Title: HexFormer: Hyperbolic Vision Transformer with Exponential Map Aggregation
- Title(参考訳): HexFormer: 指数マップアグリゲーションを備えた双曲型視覚変換器
- Authors: Haya Alyoussef, Ahmad Bdeir, Diego Coello de Portugal Mecke, Tom Hanika, Niels Landwehr, Lars Schmidt-Thieme,
- Abstract要約: 双曲幾何学は階層構造と関係構造を表現する自然な枠組みを提供する。
HexFormerは指数写像アグリゲーションを含む画像分類のための双曲型視覚変換器である。
HexFormerは指数写像アグリゲーションに基づく新しいアテンション機構を導入し、より正確で安定したアグリゲーション表現を生成する。
- 参考スコア(独自算出の注目度): 12.198535149754058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data across modalities such as images, text, and graphs often contains hierarchical and relational structures, which are challenging to model within Euclidean geometry. Hyperbolic geometry provides a natural framework for representing such structures. Building on this property, this work introduces HexFormer, a hyperbolic vision transformer for image classification that incorporates exponential map aggregation within its attention mechanism. Two designs are explored: a hyperbolic ViT (HexFormer) and a hybrid variant (HexFormer-Hybrid) that combines a hyperbolic encoder with an Euclidean linear classification head. HexFormer incorporates a novel attention mechanism based on exponential map aggregation, which yields more accurate and stable aggregated representations than standard centroid based averaging, showing that simpler approaches retain competitive merit. Experiments across multiple datasets demonstrate consistent performance improvements over Euclidean baselines and prior hyperbolic ViTs, with the hybrid variant achieving the strongest overall results. Additionally, this study provides an analysis of gradient stability in hyperbolic transformers. The results reveal that hyperbolic models exhibit more stable gradients and reduced sensitivity to warmup strategies compared to Euclidean architectures, highlighting their robustness and efficiency in training. Overall, these findings indicate that hyperbolic geometry can enhance vision transformer architectures by improving gradient stability and accuracy. In addition, relatively simple mechanisms such as exponential map aggregation can provide strong practical benefits.
- Abstract(参考訳): 画像、テキスト、グラフなどのモダリティにまたがるデータはしばしば階層構造と関係構造を持ち、ユークリッド幾何学のモデル化は困難である。
双曲幾何学はそのような構造を表現するための自然な枠組みを提供する。
この特性に基づいて、この研究は、画像分類のための双曲型視覚変換器であるHexFormerを導入し、その注意機構に指数写像アグリゲーションを組み込んだ。
双曲型ViT (HexFormer) とハイブリッド型HexFormer-Hybrid (HexFormer-Hybrid) は双曲型エンコーダとユークリッド線形分類ヘッドを組み合わせたものである。
HexFormerは指数写像アグリゲーションに基づく新しいアテンション機構を取り入れており、これは標準セントロイドベースの平均値よりも正確で安定したアグリゲーション表現をもたらし、より単純なアプローチが競争力を維持することを示している。
複数のデータセットにまたがる実験では、ユークリッドのベースラインと以前の双曲型ViTに対して一貫したパフォーマンス改善が示され、ハイブリッドの変種は最も優れた総合的な結果を得た。
さらに, 双曲型変圧器の勾配安定性の解析を行った。
その結果、双曲型モデルはユークリッド建築と比較して安定な勾配を示し、温暖化戦略に対する感受性を低下させ、訓練の堅牢性と効率性を強調した。
これらの結果から、双曲幾何学は勾配安定性と精度を向上させることにより、視覚トランスフォーマーアーキテクチャを向上することができることが示唆された。
さらに、指数写像アグリゲーションのような比較的単純なメカニズムは、強力な実用的利益をもたらす。
関連論文リスト
- HyperAlign: Hyperbolic Entailment Cones for Adaptive Text-to-Image Alignment Assessment [84.65251073657883]
双曲的エンターメント幾何に基づく適応型テキスト・画像アライメントアライメントアセスメントフレームワークHyperAlignを提案する。
まず、CLIPを用いてユークリッド特徴を抽出し、双曲空間にマッピングする。
第二に、離散エンターメント論理を連続的な幾何学的構造管理に変換する動的スーパービジョンエンターメントモデリング機構を設計する。
第3に,双曲幾何学的特徴を利用してサンプルレベルの変調パラメータを生成する適応変調回帰器を提案する。
論文 参考訳(メタデータ) (2026-01-08T05:41:06Z) - HVT: A Comprehensive Vision Framework for Learning in Non-Euclidean Space [1.1858475445768824]
本稿では、双曲幾何学を統合した視覚変換器(ViT)の新たな拡張である、双曲型視覚変換器(HVT)を紹介する。
従来のViTはユークリッド空間で作用するが、この手法は双曲的距離とM"オビウス変換を活用することにより自己認識機構を強化する。
厳密な数学的定式化を行い、双曲幾何学を注意層、フィードフォワードネットワーク、最適化に組み込む方法を示す。
論文 参考訳(メタデータ) (2024-09-25T13:07:37Z) - Hypformer: Exploring Efficient Transformer Fully in Hyperbolic Space [61.82234368639889]
双曲幾何学のローレンツモデルに基づく新しい双曲変換器Hypformerを導入する。
我々は,双曲空間における線形自己保持機構を開発し,双曲変換器が数十億のグラフデータと時系列入力を初めて処理できるようにする。
論文 参考訳(メタデータ) (2024-07-01T13:44:38Z) - Hyperbolic Delaunay Geometric Alignment [52.835250875177756]
双曲空間におけるデータセットの比較のための類似度スコアを提案する。
中心となる考え方は、与えられた集合をまたいだデータポイントを接続する双曲デラウネーグラフのエッジを数えることである。
人工および実生活の生物学的データに関する実証的研究を行い、HyperDGAが集合間の古典的距離の双曲バージョンより優れていることを示す。
論文 参考訳(メタデータ) (2024-04-12T17:14:58Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Lorentz Equivariant Model for Knowledge-Enhanced Hyperbolic
Collaborative Filtering [19.57064597050846]
我々は,知識グラフ(KG)から事前補助情報を導入し,ユーザ・テムグラフを支援する。
我々は、厳密なローレンツ群同変知識強化協調フィルタリングモデル(LECF)を提案する。
LECFは最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-09T10:20:23Z) - Complex Hyperbolic Knowledge Graph Embeddings with Fast Fourier
Transform [29.205221688430733]
知識グラフ(KG)埋め込みのための幾何学的空間の選択は、KG完了タスクの性能に大きな影響を与える。
複雑な双曲型幾何学の最近の研究は、様々な階層構造を捉えるための双曲型埋め込みをさらに改善した。
本稿では,マルチリレーショナルKG埋め込みにおける複素双曲幾何学の表現能力を活用することを目的とする。
論文 参考訳(メタデータ) (2022-11-07T15:46:00Z) - Geometry Contrastive Learning on Heterogeneous Graphs [50.58523799455101]
本稿では,幾何学コントラスト学習(Geometry Contrastive Learning, GCL)と呼ばれる,新しい自己指導型学習手法を提案する。
GCLはユークリッドと双曲的な視点からヘテロジニアスグラフを同時に見ることができ、リッチな意味論と複雑な構造をモデル化する能力の強い融合を目指している。
4つのベンチマークデータセットの大規模な実験は、提案手法が強いベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-25T03:54:53Z) - Hyperbolic Graph Embedding with Enhanced Semi-Implicit Variational
Inference [48.63194907060615]
半単純グラフ変分自動エンコーダを用いて,低次元グラフ潜在表現における高次統計量を取得する。
我々は、階層構造を示すグラフを効率的に表現するために、ポインケア埋め込みを通して潜在空間に双曲幾何学を組み込む。
論文 参考訳(メタデータ) (2020-10-31T05:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。