論文の概要: A mathematical perspective on Transformers
- arxiv url: http://arxiv.org/abs/2312.10794v4
- Date: Mon, 12 Aug 2024 14:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 00:28:28.995595
- Title: A mathematical perspective on Transformers
- Title(参考訳): 変圧器に関する数学的考察
- Authors: Borjan Geshkovski, Cyril Letrouit, Yury Polyanskiy, Philippe Rigollet,
- Abstract要約: 相互作用する粒子系として解釈したトランスフォーマーを解析するための数学的枠組みを開発する。
本研究は、基礎となる理論を探求し、数学者だけでなく計算機科学者にも新たな視点を提供する。
- 参考スコア(独自算出の注目度): 22.689695473655906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers play a central role in the inner workings of large language models. We develop a mathematical framework for analyzing Transformers based on their interpretation as interacting particle systems, which reveals that clusters emerge in long time. Our study explores the underlying theory and offers new perspectives for mathematicians as well as computer scientists.
- Abstract(参考訳): トランスフォーマーは、大きな言語モデルの内部動作において中心的な役割を果たす。
本研究では, 相互作用粒子系として解釈したトランスフォーマーを解析するための数学的枠組みを構築し, クラスタが長時間に出現することを明らかにする。
本研究は、基礎となる理論を探求し、数学者だけでなく計算機科学者にも新たな視点を提供する。
関連論文リスト
- Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。
変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。
そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文 参考訳(メタデータ) (2024-06-26T16:13:35Z) - Large Language Models for Mathematicians [53.27302720305432]
大規模言語モデル(LLM)は、汎用言語理解、特に高品質なテキストやコンピュータコードを生成する能力に多大な関心を集めている。
本稿では,プロの数学者をどの程度支援できるかについて論じる。
論文 参考訳(メタデータ) (2023-12-07T18:59:29Z) - Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - To Transformers and Beyond: Large Language Models for the Genome [2.799755865110429]
本稿では,大言語モデル (LLM) の変換的役割について述べる。
従来の畳み込みニューラルネットワークとリカレントニューラルネットワークの基礎の上に構築され、トランスフォーマーの長所と短所の両方を探求する。
我々は、現在の研究動向に基づいて、トランスフォーマーアーキテクチャを超えてゲノムモデリングの未来を考察する。
論文 参考訳(メタデータ) (2023-11-13T02:13:58Z) - Traveling Words: A Geometric Interpretation of Transformers [0.0]
トランス操作の内部メカニズムを解明する新しい幾何学的視点を導入する。
我々の主な貢献は、層正規化が潜在特徴を超球面に閉じ込める方法を示し、その後、この表面における単語の意味表現を形作ることを可能にすることである。
本稿では,超球面に沿った単語粒子の軌跡をモデル化するプロセスとして,トランスフォーマーの直感的な理解を示す。
論文 参考訳(メタデータ) (2023-09-13T21:01:03Z) - An Introduction to Transformers [23.915718146956355]
Transformerは、有用なシーケンスやデータポイントのセットを学ぶために使用できるニューラルネットワークコンポーネントである。
本稿では,トランスアーキテクチャの数学的,正確,直感的,クリーンな記述を目指す。
論文 参考訳(メタデータ) (2023-04-20T14:54:19Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Transformers in Time Series: A Survey [66.50847574634726]
時系列モデリングのためのTransformerスキームを,その強みと限界を強調して体系的にレビューする。
ネットワーク構造の観点から、トランスフォーマーに施された適応と修正を要約する。
応用の観点からは,予測,異常検出,分類などの共通タスクに基づいて時系列変換器を分類する。
論文 参考訳(メタデータ) (2022-02-15T01:43:27Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z) - Efficient Transformers: A Survey [98.23264445730645]
トランスフォーマーモデルアーキテクチャは、言語、ビジョン、強化学習など、さまざまな領域で有効性があるため、近年大きな関心を集めている。
本稿では,最近の「X-former」モデルの大規模かつ思慮深い選択を特徴付ける。
論文 参考訳(メタデータ) (2020-09-14T20:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。