論文の概要: Unifying and Enhancing Graph Transformers via a Hierarchical Mask Framework
- arxiv url: http://arxiv.org/abs/2510.18825v1
- Date: Tue, 21 Oct 2025 17:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.027659
- Title: Unifying and Enhancing Graph Transformers via a Hierarchical Mask Framework
- Title(参考訳): 階層型マスクフレームワークによるグラフトランスフォーマーの統一と強化
- Authors: Yujie Xing, Xiao Wang, Bin Wu, Hai Huang, Chuan Shi,
- Abstract要約: 本稿では,モデルアーキテクチャとアテンションマスク構築の等価性を明らかにする統一階層型マスクフレームワークを提案する。
このフレームワークは、注意深く設計された注意マスクを通して多様なインタラクションをキャプチャすることで、一貫したモデリングパラダイムを実現する。
マルチレベルマスキングとデュアルアテンション計算を備えたM3Dphormerについて述べる。
- 参考スコア(独自算出の注目度): 18.725415922303632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph Transformers (GTs) have emerged as a powerful paradigm for graph representation learning due to their ability to model diverse node interactions. However, existing GTs often rely on intricate architectural designs tailored to specific interactions, limiting their flexibility. To address this, we propose a unified hierarchical mask framework that reveals an underlying equivalence between model architecture and attention mask construction. This framework enables a consistent modeling paradigm by capturing diverse interactions through carefully designed attention masks. Theoretical analysis under this framework demonstrates that the probability of correct classification positively correlates with the receptive field size and label consistency, leading to a fundamental design principle: an effective attention mask should ensure both a sufficiently large receptive field and a high level of label consistency. While no single existing mask satisfies this principle across all scenarios, our analysis reveals that hierarchical masks offer complementary strengths, motivating their effective integration. Then, we introduce M3Dphormer, a Mixture-of-Experts-based Graph Transformer with Multi-Level Masking and Dual Attention Computation. M3Dphormer incorporates three theoretically grounded hierarchical masks and employs a bi-level expert routing mechanism to adaptively integrate multi-level interaction information. To ensure scalability, we further introduce a dual attention computation scheme that dynamically switches between dense and sparse modes based on local mask sparsity. Extensive experiments across multiple benchmarks demonstrate that M3Dphormer achieves state-of-the-art performance, validating the effectiveness of our unified framework and model design.
- Abstract(参考訳): グラフ変換器(GT)は、多様なノード間の相互作用をモデル化できるため、グラフ表現学習の強力なパラダイムとして登場した。
しかし、既存のGTは特定の相互作用に合わせた複雑なアーキテクチャ設計に依存しており、柔軟性を制限している。
そこで本研究では,モデルアーキテクチャとアテンションマスク構築の等価性を示す統一階層型マスクフレームワークを提案する。
このフレームワークは、注意深く設計された注意マスクを通して多様なインタラクションをキャプチャすることで、一貫したモデリングパラダイムを実現する。
この枠組みに基づく理論的分析は、正しい分類の確率が受容場の大きさとラベルの一貫性と正に相関していることを示し、基本的な設計原則が導かれる: 効果的な注意マスクは十分な大きな受容場と高いレベルのラベルの整合性の両方を保証するべきである。
全てのシナリオでこの原則を満たすマスクは存在しないが、我々の分析では階層型マスクが相補的な強みを与え、それらの効果的な統合を動機付けていることが明らかになった。
次に,M3Dphormerを紹介した。M3Dphormerは,マルチレベルマスキングとデュアルアテンション計算を備えたM3Dphormerである。
M3Dphormerは理論上は3つの階層マスクを組み込んでおり、多レベル相互作用情報を適応的に統合するために2レベルの専門家ルーティング機構を使用している。
拡張性を確保するために,局所マスクの空間幅に基づいて,高密度モードとスパースモードを動的に切り替えるデュアルアテンション計算方式を導入する。
複数のベンチマークにわたる大規模な実験により、M3Dphormerは最先端のパフォーマンスを実現し、統合されたフレームワークとモデル設計の有効性を検証した。
関連論文リスト
- Trainable Dynamic Mask Sparse Attention [11.506985057671015]
トレーニング可能なダイナミックマスクスパースアテンション機構を導入し、位置認識とコンテンツ認識の両方のアプローチの利点を融合する手法を提案する。
導入したダイナミックマスクとスパースウェイトは勾配を阻害せず、エンドツーエンドのトレーニングを支援することを実証する。
論文 参考訳(メタデータ) (2025-08-04T07:05:15Z) - Polyline Path Masked Attention for Vision Transformer [52.90241449955985]
ビジョントランスフォーマー (ViT) はコンピュータビジョンにおいて大きな成功を収めた。
Mamba2は自然言語処理タスクにおいて大きな可能性を実証している。
本稿では,VTの自己注意機構とMamba2の強化された構造化マスクを統合するポリリンパス仮面注意(PPMA)を提案する。
論文 参考訳(メタデータ) (2025-06-19T00:52:30Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Towards Fine-grained Interactive Segmentation in Images and Videos [21.22536962888316]
SAM2のバックボーン上に構築されたSAM2Refinerフレームワークを提案する。
このアーキテクチャによりSAM2は、画像とビデオの両方のきめ細かいセグメンテーションマスクを生成することができる。
さらに,マルチスケールのカスケード構造を用いてマスク特徴とエンコーダの階層的表現を融合させることによりマスクリファインメントモジュールを考案した。
論文 参考訳(メタデータ) (2025-02-12T06:38:18Z) - Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。
我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。
このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文 参考訳(メタデータ) (2024-05-30T11:11:54Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。