論文の概要: RiemannFormer: A Framework for Attention in Curved Spaces
- arxiv url: http://arxiv.org/abs/2506.07405v1
- Date: Mon, 09 Jun 2025 03:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.800494
- Title: RiemannFormer: A Framework for Attention in Curved Spaces
- Title(参考訳): RiemannFormer: 曲線空間における注意のためのフレームワーク
- Authors: Zhongping Ji,
- Abstract要約: この研究は、トランスフォーマーベースのアーキテクチャのさらなる可能性を解き放つための洞察を提供する努力である。
主な動機の1つは、変圧器における注意機構の幾何学的解釈を提供することである。
- 参考スコア(独自算出の注目度): 0.43512163406552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research endeavors to offer insights into unlocking the further potential of transformer-based architectures. One of the primary motivations is to offer a geometric interpretation for the attention mechanism in transformers. In our framework, the attention mainly involves metric tensors, tangent spaces, inner product, and how they relate to each other. These quantities and structures at discrete positions are intricately interconnected via the parallel transport of tangent vectors. To make the learning process more efficient, we reduce the number of parameters through ingenious predefined configurations. Moreover, we introduce an explicit mechanism to highlight a neighborhood by attenuating the remote values, given that transformers inherently neglect local inductive bias. Experimental results demonstrate that our modules deliver significant performance improvements relative to the baseline. More evaluation experiments on visual and large language models will be launched successively.
- Abstract(参考訳): この研究は、トランスフォーマーベースのアーキテクチャのさらなる可能性を解き放つための洞察を提供する努力である。
主な動機の1つは、変圧器における注意機構の幾何学的解釈を提供することである。
我々の枠組みでは、注意は主に計量テンソル、接空間、内積、そしてそれらが相互にどのように関係するかに関係している。
離散的な位置にあるこれらの量と構造は、接ベクトルの平行輸送によって複雑に相互接続される。
学習プロセスをより効率的にするために、創発的な事前定義された設定によってパラメータの数を削減します。
さらに,変換器が局所帰納バイアスを本質的に無視することを考えると,リモート値の減衰により近隣を強調させる明示的なメカニズムを導入する。
実験の結果,モジュールはベースラインに対して大幅な性能向上を実現していることがわかった。
ビジュアルおよび大規模言語モデルに関するさらなる評価実験を順次開始する。
関連論文リスト
- On the Robustness of Transformers against Context Hijacking for Linear Classification [26.1838836907147]
Transformer-based Large Language Models (LLM) は、強力なコンテキスト内学習能力を実証している。
それらは、コンテキストハイジャックとして知られる、事実的に正しいコンテキストによって破壊される。
十分に訓練された深部変圧器は、経験的観測と整合した高い強靭性を実現することができることを示す。
論文 参考訳(メタデータ) (2025-02-21T17:31:00Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Transformer Block Coupling and its Correlation with Generalization in LLMs [3.007031501305338]
トークン埋め込みの軌跡をトランスフォーマーブロックを通過して解析し、ジャコビアン行列を通してこれらの軌跡に沿って系を線形化する。
我々は,多言語モデルにおけるtextbftransformer ブロックの結合現象を明らかにし,トークンと深さをまたいだ頂点特異ベクトルの結合を特徴とする。
さらに,これらの特性が学習中にどのように出現するかを考察し,結合の進行,線形性の向上,トークン軌道の層ワイド指数的成長を観察する。
論文 参考訳(メタデータ) (2024-07-10T16:30:27Z) - Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling [10.246977481606427]
ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。
本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
論文 参考訳(メタデータ) (2024-02-01T11:43:13Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。