論文の概要: Hypergraph Vision Transformers: Images are More than Nodes, More than Edges
- arxiv url: http://arxiv.org/abs/2504.08710v1
- Date: Fri, 11 Apr 2025 17:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:36.887973
- Title: Hypergraph Vision Transformers: Images are More than Nodes, More than Edges
- Title(参考訳): Hypergraph Vision Transformer:イメージはノード以上、エッジ以上
- Authors: Joshua Fixelle,
- Abstract要約: 本稿では,階層的な双部グラフ構造を持つハイパーグラフ・ビジョン・トランス (HgVT) を視覚トランスフレームワークに組み込んだハイパーグラフ・ビジョン・トランスフォーマーを提案する。
HgVTは画像分類と検索において高い性能を達成し、セマンティックベースの視覚タスクの効率的なフレームワークとして位置づける。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent advancements in computer vision have highlighted the scalability of Vision Transformers (ViTs) across various tasks, yet challenges remain in balancing adaptability, computational efficiency, and the ability to model higher-order relationships. Vision Graph Neural Networks (ViGs) offer an alternative by leveraging graph-based methodologies but are hindered by the computational bottlenecks of clustering algorithms used for edge generation. To address these issues, we propose the Hypergraph Vision Transformer (HgVT), which incorporates a hierarchical bipartite hypergraph structure into the vision transformer framework to capture higher-order semantic relationships while maintaining computational efficiency. HgVT leverages population and diversity regularization for dynamic hypergraph construction without clustering, and expert edge pooling to enhance semantic extraction and facilitate graph-based image retrieval. Empirical results demonstrate that HgVT achieves strong performance on image classification and retrieval, positioning it as an efficient framework for semantic-based vision tasks.
- Abstract(参考訳): コンピュータビジョンの最近の進歩は、様々なタスクにわたる視覚変換器(ViT)のスケーラビリティを強調しているが、適応性、計算効率、高次関係をモデル化する能力のバランスは依然として課題である。
Vision Graph Neural Networks (ViGs) はグラフベースの手法を活用する代替手段を提供するが、エッジ生成に使用されるクラスタリングアルゴリズムの計算ボトルネックによって妨げられる。
これらの問題に対処するために,階層的な双分割ハイパーグラフ構造を組み込んだHypergraph Vision Transformer (HgVT) を提案する。
HgVTは、クラスタリングなしでの動的ハイパーグラフ構築のための人口と多様性の規則化と、専門的なエッジプーリングを活用して、意味抽出を強化し、グラフベースの画像検索を容易にする。
実験の結果,HgVTは画像分類と検索において高い性能を示し,意味に基づく視覚タスクの効率的なフレームワークとして位置づけている。
関連論文リスト
- ClusterViG: Efficient Globally Aware Vision GNNs via Image Partitioning [7.325055402812975]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)がコンピュータビジョン(CV)の分野を支配している。
このボトルネックに対処する最近の研究は、非構造化グラフを構築するためのGNNの柔軟性に制約を課している。
そこで本稿では, 動的効率性グラフ畳み込み (DEGC) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-18T02:59:10Z) - GIMS: Image Matching System Based on Adaptive Graph Construction and Graph Neural Network [7.711922592226936]
本稿では,距離と動的しきい値の類似性に基づくフィルタリング機構を利用する,革新的な適応グラフ構築手法を提案する。
また、トランスフォーマーのグローバルな認識能力を組み合わせて、グラフ構造の表現を強化する。
システム全体のマッチング性能は平均3.8x-40.3x向上した。
論文 参考訳(メタデータ) (2024-12-24T07:05:55Z) - SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers [0.0]
ビジョントランスフォーマー(ViT)は、イメージパッチ間の複雑なパターンと長距離依存関係をキャプチャするために自己アテンションを活用することで、イメージ分類を再定義している。
ViTsの重要な課題は、階層構造を通じて畳み込みニューラルネットワーク(CNN)に固有のマルチスケールの特徴表現を効率的に組み込むことである。
我々は、CNNのマルチスケール機能、ViTの表現力、グラフ付きパッチ機能を統合し、よりリッチなコンテキスト表現を可能にするスケールアウェアグラフ注意型ViTであるSAG-ViTを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:15:27Z) - UnSeGArmaNet: Unsupervised Image Segmentation using Graph Neural Networks with Convolutional ARMA Filters [10.940349832919699]
事前学習したViTを用いた教師なしセグメンテーションフレームワークを提案する。
画像内に固有のグラフ構造を利用することにより,セグメント化における顕著な性能を実現する。
提案手法は,ベンチマーク画像セグメンテーションデータセット上での最先端性能(教師付き手法に匹敵する)を提供する。
論文 参考訳(メタデータ) (2024-10-08T15:10:09Z) - SGFormer: Single-Layer Graph Transformers with Approximation-Free Linear Complexity [74.51827323742506]
グラフ上でのトランスフォーマーにおける多層アテンションの導入の必要性を評価する。
本研究では,一層伝播を一層伝播に還元できることを示す。
これは、グラフ上で強力で効率的なトランスフォーマーを構築するための新しい技術パスを示唆している。
論文 参考訳(メタデータ) (2024-09-13T17:37:34Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Hypergraph Transformer for Semi-Supervised Classification [50.92027313775934]
我々は新しいハイパーグラフ学習フレームワークHyperGraph Transformer(HyperGT)を提案する。
HyperGTはTransformerベースのニューラルネットワークアーキテクチャを使用して、すべてのノードとハイパーエッジのグローバル相関を効果的に検討する。
局所接続パターンを保ちながら、グローバルな相互作用を効果的に組み込むことで、包括的なハイパーグラフ表現学習を実現する。
論文 参考訳(メタデータ) (2023-12-18T17:50:52Z) - Graph Reasoning Transformer for Image Parsing [67.76633142645284]
本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。
従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。
その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-20T08:21:37Z) - Deformable Graph Transformer [31.254872949603982]
本稿では動的にサンプリングされたキーと値のペアでスパースアテンションを行うDeformable Graph Transformer (DGT)を提案する。
実験により、我々の新しいグラフトランスフォーマーは既存のトランスフォーマーベースモデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-06-29T00:23:25Z) - Spectral Graph Convolutional Networks With Lifting-based Adaptive Graph
Wavelets [81.63035727821145]
スペクトルグラフ畳み込みネットワーク(SGCN)はグラフ表現学習において注目を集めている。
本稿では,適応グラフウェーブレットを用いたグラフ畳み込みを実装した新しいスペクトルグラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T17:57:53Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。