論文の概要: A mathematical perspective on Transformers
- arxiv url: http://arxiv.org/abs/2312.10794v2
- Date: Fri, 22 Dec 2023 12:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:47:09.019811
- Title: A mathematical perspective on Transformers
- Title(参考訳): 変圧器の数学的展望
- Authors: Borjan Geshkovski, Cyril Letrouit, Yury Polyanskiy, Philippe Rigollet
- Abstract要約: 相互作用する粒子系として解釈したトランスフォーマーを解析するための数学的枠組みを開発する。
本研究は、基礎となる理論を探求し、数学者だけでなく計算機科学者にも新たな視点を提供する。
- 参考スコア(独自算出の注目度): 24.786862288360076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers play a central role in the inner workings of large language
models. We develop a mathematical framework for analyzing Transformers based on
their interpretation as interacting particle systems, which reveals that
clusters emerge in long time. Our study explores the underlying theory and
offers new perspectives for mathematicians as well as computer scientists.
- Abstract(参考訳): トランスフォーマーは、大きな言語モデルの内部動作において中心的な役割を果たす。
本研究では,相互作用する粒子系として解釈したトランスフォーマーを解析するための数学的枠組みを構築した。
我々の研究は基礎となる理論を探求し、数学者と計算機科学者に新しい視点を提供する。
関連論文リスト
- Large Language Models for Mathematicians [53.27302720305432]
大規模言語モデル(LLM)は、汎用言語理解、特に高品質なテキストやコンピュータコードを生成する能力に多大な関心を集めている。
本稿では,プロの数学者をどの程度支援できるかについて論じる。
論文 参考訳(メタデータ) (2023-12-07T18:59:29Z) - Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - To Transformers and Beyond: Large Language Models for the Genome [2.799755865110429]
本稿では,大言語モデル (LLM) の変換的役割について述べる。
従来の畳み込みニューラルネットワークとリカレントニューラルネットワークの基礎の上に構築され、トランスフォーマーの長所と短所の両方を探求する。
我々は、現在の研究動向に基づいて、トランスフォーマーアーキテクチャを超えてゲノムモデリングの未来を考察する。
論文 参考訳(メタデータ) (2023-11-13T02:13:58Z) - Explainability of Vision Transformers: A Comprehensive Review and New
Perspectives [11.853186902106067]
トランスフォーマーは自然言語処理に大きな影響を与え、最近コンピュータビジョンにおけるその可能性を実証した。
本研究では、視覚変換器に提案する様々な説明可能性手法について検討し、それらを分類するための分類法を提案する。
分析結果の比較に使用できる評価基準の総合的なレビューを提供する。
論文 参考訳(メタデータ) (2023-11-12T09:23:40Z) - Traveling Words: A Geometric Interpretation of Transformers [0.0]
トランス操作の内部メカニズムを解明する新しい幾何学的視点を導入する。
我々の主な貢献は、層正規化が潜在特徴を超球面に閉じ込める方法を示し、その後、この表面における単語の意味表現を形作ることを可能にすることである。
本稿では,超球面に沿った単語粒子の軌跡をモデル化するプロセスとして,トランスフォーマーの直感的な理解を示す。
論文 参考訳(メタデータ) (2023-09-13T21:01:03Z) - An Introduction to Transformers [23.915718146956355]
Transformerは、有用なシーケンスやデータポイントのセットを学ぶために使用できるニューラルネットワークコンポーネントである。
本稿では,トランスアーキテクチャの数学的,正確,直感的,クリーンな記述を目指す。
論文 参考訳(メタデータ) (2023-04-20T14:54:19Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Transformers in Time Series: A Survey [66.50847574634726]
時系列モデリングのためのTransformerスキームを,その強みと限界を強調して体系的にレビューする。
ネットワーク構造の観点から、トランスフォーマーに施された適応と修正を要約する。
応用の観点からは,予測,異常検出,分類などの共通タスクに基づいて時系列変換器を分類する。
論文 参考訳(メタデータ) (2022-02-15T01:43:27Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z) - Efficient Transformers: A Survey [98.23264445730645]
トランスフォーマーモデルアーキテクチャは、言語、ビジョン、強化学習など、さまざまな領域で有効性があるため、近年大きな関心を集めている。
本稿では,最近の「X-former」モデルの大規模かつ思慮深い選択を特徴付ける。
論文 参考訳(メタデータ) (2020-09-14T20:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。