論文の概要: A Theory for Compressibility of Graph Transformers for Transductive Learning
- arxiv url: http://arxiv.org/abs/2411.13028v1
- Date: Wed, 20 Nov 2024 04:20:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:16.413914
- Title: A Theory for Compressibility of Graph Transformers for Transductive Learning
- Title(参考訳): トランスダクティブ学習のためのグラフ変換器の圧縮性理論
- Authors: Hamed Shirzad, Honghao Lin, Ameya Velingker, Balaji Venkatachalam, David Woodruff, Danica Sutherland,
- Abstract要約: グラフ上のトランスダクティブタスクは、典型的な教師付き機械学習タスクと根本的に異なる。
すべてのトレイン/テスト/バリデーションサンプルは、トレーニング中に存在しており、半教師付きタスクに似ています。
我々は、これらのネットワークの隠れた次元をどのように圧縮できるかという理論的な境界を定めている。
- 参考スコア(独自算出の注目度): 6.298115235439078
- License:
- Abstract: Transductive tasks on graphs differ fundamentally from typical supervised machine learning tasks, as the independent and identically distributed (i.i.d.) assumption does not hold among samples. Instead, all train/test/validation samples are present during training, making them more akin to a semi-supervised task. These differences make the analysis of the models substantially different from other models. Recently, Graph Transformers have significantly improved results on these datasets by overcoming long-range dependency problems. However, the quadratic complexity of full Transformers has driven the community to explore more efficient variants, such as those with sparser attention patterns. While the attention matrix has been extensively discussed, the hidden dimension or width of the network has received less attention. In this work, we establish some theoretical bounds on how and under what conditions the hidden dimension of these networks can be compressed. Our results apply to both sparse and dense variants of Graph Transformers.
- Abstract(参考訳): グラフ上のトランスダクティブタスクは、典型的な教師付き機械学習タスクとは根本的に異なる。
代わりに、トレーニング中にすべてのトレイン/テスト/バリデーションサンプルが存在し、半教師付きタスクに似ています。
これらの違いは、モデルの解析を他のモデルと大きく異なるものにする。
最近、グラフトランスフォーマーは、長距離依存性問題を克服することで、これらのデータセットの結果を大幅に改善した。
しかし、フルトランスフォーマーの二次的な複雑さにより、コミュニティは、スペーサーの注意パターンのようなより効率的な変種を探さざるを得なくなった。
注目行列は広く議論されているが、ネットワークの隠れ次元や幅は少ない。
本研究では,これらのネットワークの隠れ次元をどのように圧縮できるのか,その条件下ではどのように圧縮できるのか,という理論的境界を確立する。
この結果はグラフ変換器のスパース変種と高密度変種の両方に適用できる。
関連論文リスト
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Deformable Graph Transformer [31.254872949603982]
本稿では動的にサンプリングされたキーと値のペアでスパースアテンションを行うDeformable Graph Transformer (DGT)を提案する。
実験により、我々の新しいグラフトランスフォーマーは既存のトランスフォーマーベースモデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-06-29T00:23:25Z) - What Dense Graph Do You Need for Self-Attention? [73.82686008622596]
我々はハイパーキューブにおけるトークンインタラクションをモデル化し、バニラ変換器と同等あるいはそれ以上の結果を示すスパーストランスフォーマーHypercube Transformerを提案する。
様々なシーケンス長を必要とするタスクの実験は、グラフ関数の検証をうまく行いました。
論文 参考訳(メタデータ) (2022-05-27T14:36:55Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - Gophormer: Ego-Graph Transformer for Node Classification [27.491500255498845]
本稿では,egoグラフにフルグラフの代わりにトランスフォーマーを適用した新しいGophormerモデルを提案する。
具体的には、変圧器の入力としてエゴグラフをサンプリングするためにNode2Seqモジュールが提案されており、スケーラビリティの課題が軽減されている。
エゴグラフサンプリングで導入された不確実性に対処するために,一貫性の正則化とマルチサンプル推論戦略を提案する。
論文 参考訳(メタデータ) (2021-10-25T16:43:32Z) - Grounding inductive biases in natural images:invariance stems from
variations in data [20.432568247732206]
本研究では,実際のデータセットであるImageNetの変動要因について検討する。
標準的な拡張は、翻訳とスケールの正確な組み合わせに依存していることを示す。
ImageNetの変動の主な要因は外見に大きく関係していることがわかりました。
論文 参考訳(メタデータ) (2021-06-09T14:58:57Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。