論文の概要: Hide & Seek: Transformer Symmetries Obscure Sharpness & Riemannian Geometry Finds It
- arxiv url: http://arxiv.org/abs/2505.05409v1
- Date: Thu, 08 May 2025 16:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.968251
- Title: Hide & Seek: Transformer Symmetries Obscure Sharpness & Riemannian Geometry Finds It
- Title(参考訳): Hide & Seek:トランスフォーマーの対称性はシャープさとリーマン幾何学が発見
- Authors: Marvin F. da Silva, Felix Dangel, Sageev Oore,
- Abstract要約: 既存のシャープネス対策は、よりリッチな対称性を持つため、トランスフォーマーには失敗する、と我々は主張する。
我々は、対称性を補正した商多様体上の測地球の観点から、シャープネスの完全な一般概念を提案する。
我々の測地的シャープネスは、テキストと画像の分類タスクの両方において、現実世界のトランスフォーマーに強い相関関係を示す。
- 参考スコア(独自算出の注目度): 5.89889361990138
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The concept of sharpness has been successfully applied to traditional architectures like MLPs and CNNs to predict their generalization. For transformers, however, recent work reported weak correlation between flatness and generalization. We argue that existing sharpness measures fail for transformers, because they have much richer symmetries in their attention mechanism that induce directions in parameter space along which the network or its loss remain identical. We posit that sharpness must account fully for these symmetries, and thus we redefine it on a quotient manifold that results from quotienting out the transformer symmetries, thereby removing their ambiguities. Leveraging tools from Riemannian geometry, we propose a fully general notion of sharpness, in terms of a geodesic ball on the symmetry-corrected quotient manifold. In practice, we need to resort to approximating the geodesics. Doing so up to first order yields existing adaptive sharpness measures, and we demonstrate that including higher-order terms is crucial to recover correlation with generalization. We present results on diagonal networks with synthetic data, and show that our geodesic sharpness reveals strong correlation for real-world transformers on both text and image classification tasks.
- Abstract(参考訳): シャープネスの概念は、MPPやCNNといった従来のアーキテクチャに適用され、一般化の予測に成功している。
しかし、変圧器については、最近の研究で平坦性と一般化の相関が弱いことが報告されている。
既存のシャープネス対策は,ネットワークや損失が同一であるパラメータ空間の方向を誘導するアテンション機構において,よりリッチな対称性を持つため,変圧器では失敗すると主張する。
シャープさはこれらの対称性を完全に考慮しなければならないと仮定するので、変圧器対称性の商化から得られる商多様体上で再定義し、それによってあいまいさを除去する。
リーマン幾何学からツールを活用することで、対称補正商多様体上の測地線球の観点から、シャープネスの完全な一般概念を提案する。
実際には、測地学の近似に頼らなければならない。
1次まで行うと、既存の適応的シャープネス対策が得られ、高次項を含めることが一般化との相関を回復するために重要であることを示す。
本研究では, 合成データを用いた対角線ネットワークにおいて, 測地的シャープネスが, テキストと画像の分類作業の両方において, 実世界のトランスフォーマーに強い相関関係を示すことを示す。
関連論文リスト
- Improving Equivariant Networks with Probabilistic Symmetry Breaking [9.164167226137664]
同変ネットワークは既知の対称性をニューラルネットワークにエンコードし、しばしば一般化を強化する。
これは(1)自己対称性が共通な領域での予測タスク、(2)高対称性の潜在空間から再構成するために対称性を破らなければならない生成モデルの両方に重要な問題を引き起こす。
このような分布を表すのに十分な条件を確立する新しい理論結果を示す。
論文 参考訳(メタデータ) (2025-03-27T21:04:49Z) - Towards Understanding Inductive Bias in Transformers: A View From Infinity [9.00214539845063]
変換器は、列空間のより置換対称関数に偏りがちである。
対称群の表現論は定量的な解析的予測に利用できることを示す。
我々は、WikiTextデータセットは、実際に置換対称性の程度を持っていると主張している。
論文 参考訳(メタデータ) (2024-02-07T19:00:01Z) - Learning Layer-wise Equivariances Automatically using Gradients [66.81218780702125]
畳み込みは等価対称性をニューラルネットワークにエンコードし、より優れた一般化性能をもたらす。
対称性は、ネットワークが表現できる機能、事前に指定する必要、適応できない機能に対して、固定されたハード制約を提供する。
私たちのゴールは、勾配を使ってデータから自動的に学習できるフレキシブル対称性の制約を可能にすることです。
論文 参考訳(メタデータ) (2023-10-09T20:22:43Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - The Geometry of Neural Nets' Parameter Spaces Under Reparametrization [35.5848464226014]
我々は、リーマン幾何学の観点から、リパラメトリゼーションの下でのニューラルネットの不変性について研究する。
本稿では,ミニマムの平坦度,最適化,および確率密度について考察する。
論文 参考訳(メタデータ) (2023-02-14T22:48:24Z) - Equivariant Mesh Attention Networks [10.517110532297021]
上述したすべての変換にほぼ同値なメッシュデータに対する注意に基づくアーキテクチャを提案する。
提案したアーキテクチャは,これらの局所的・言語的変換に対して同変であり,従って堅牢であることを確認した。
論文 参考訳(メタデータ) (2022-05-21T19:53:14Z) - Boundary theories of critical matchgate tensor networks [59.433172590351234]
AdS/CFT対応の重要な側面は、双曲格子上のテンソルネットワークモデルの観点から捉えることができる。
マッチゲート制約を満たすテンソルに対しては、これらは以前、乱れた境界状態を生成することが示されている。
これらのハミルトニアンは、解析的な玩具モデルによって捉えられたマルチスケールの準周期対称性を示す。
論文 参考訳(メタデータ) (2021-10-06T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。