論文の概要: A mathematical perspective on Transformers
- arxiv url: http://arxiv.org/abs/2312.10794v4
- Date: Mon, 12 Aug 2024 14:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 00:28:28.995595
- Title: A mathematical perspective on Transformers
- Title(参考訳): 変圧器に関する数学的考察
- Authors: Borjan Geshkovski, Cyril Letrouit, Yury Polyanskiy, Philippe Rigollet,
- Abstract要約: 相互作用する粒子系として解釈したトランスフォーマーを解析するための数学的枠組みを開発する。
本研究は、基礎となる理論を探求し、数学者だけでなく計算機科学者にも新たな視点を提供する。
- 参考スコア(独自算出の注目度): 22.689695473655906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers play a central role in the inner workings of large language models. We develop a mathematical framework for analyzing Transformers based on their interpretation as interacting particle systems, which reveals that clusters emerge in long time. Our study explores the underlying theory and offers new perspectives for mathematicians as well as computer scientists.
- Abstract(参考訳): トランスフォーマーは、大きな言語モデルの内部動作において中心的な役割を果たす。
本研究では, 相互作用粒子系として解釈したトランスフォーマーを解析するための数学的枠組みを構築し, クラスタが長時間に出現することを明らかにする。
本研究は、基礎となる理論を探求し、数学者だけでなく計算機科学者にも新たな視点を提供する。
関連論文リスト
- Identification of Mean-Field Dynamics using Transformers [3.8916312075738273]
本稿では, 粒子の挙動を示す粒子系の平均場ダイナミクスを近似するために, 変圧器アーキテクチャを用いた手法について検討する。
具体的には、有限次元変圧器が粒子系を支配する有限次元ベクトル場を効果的に近似できるなら、この変圧器の期待出力は無限次元平均場ベクトル場に対して良い近似を与える。
論文 参考訳(メタデータ) (2024-10-06T19:47:24Z) - A Novel Spinor-Based Embedding Model for Transformers [0.0]
幾何代数学からのスピノルを利用したトランスフォーマーモデルにおける単語埋め込みの新しい手法を提案する。
スピノルは高次元空間における複雑な関係や変換を捉えることができるリッチな数学的枠組みを提供する。
論文 参考訳(メタデータ) (2024-09-26T01:18:45Z) - Transformer Explainer: Interactive Learning of Text-Generative Models [65.91049787390692]
Transformer Explainerは、GPT-2モデルを通じてTransformerについて学ぶために非専門家向けに設計されたインタラクティブな可視化ツールである。
ライブのGPT-2インスタンスをユーザのブラウザでローカルに実行し、ユーザが自身の入力を実験し、Transformerの内部コンポーネントとパラメータの協調動作をリアルタイムで観察することを可能にする。
論文 参考訳(メタデータ) (2024-08-08T17:49:07Z) - Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。
変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。
そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文 参考訳(メタデータ) (2024-06-26T16:13:35Z) - Large Language Models for Mathematicians [53.27302720305432]
大規模言語モデル(LLM)は、汎用言語理解、特に高品質なテキストやコンピュータコードを生成する能力に多大な関心を集めている。
本稿では,プロの数学者をどの程度支援できるかについて論じる。
論文 参考訳(メタデータ) (2023-12-07T18:59:29Z) - Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - To Transformers and Beyond: Large Language Models for the Genome [2.799755865110429]
本稿では,大言語モデル (LLM) の変換的役割について述べる。
従来の畳み込みニューラルネットワークとリカレントニューラルネットワークの基礎の上に構築され、トランスフォーマーの長所と短所の両方を探求する。
我々は、現在の研究動向に基づいて、トランスフォーマーアーキテクチャを超えてゲノムモデリングの未来を考察する。
論文 参考訳(メタデータ) (2023-11-13T02:13:58Z) - An Introduction to Transformers [23.915718146956355]
Transformerは、有用なシーケンスやデータポイントのセットを学ぶために使用できるニューラルネットワークコンポーネントである。
本稿では,トランスアーキテクチャの数学的,正確,直感的,クリーンな記述を目指す。
論文 参考訳(メタデータ) (2023-04-20T14:54:19Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z) - Efficient Transformers: A Survey [98.23264445730645]
トランスフォーマーモデルアーキテクチャは、言語、ビジョン、強化学習など、さまざまな領域で有効性があるため、近年大きな関心を集めている。
本稿では,最近の「X-former」モデルの大規模かつ思慮深い選択を特徴付ける。
論文 参考訳(メタデータ) (2020-09-14T20:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。