論文の概要: Physical models realizing the transformer architecture of large language models
- arxiv url: http://arxiv.org/abs/2507.13354v2
- Date: Tue, 22 Jul 2025 09:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 15:16:11.862989
- Title: Physical models realizing the transformer architecture of large language models
- Title(参考訳): 大規模言語モデルのトランスフォーマーアーキテクチャを実現する物理モデル
- Authors: Zeqian Chen,
- Abstract要約: 2017年のトランスフォーマーアーキテクチャの導入は、自然言語処理の最も顕著な進歩となった。
我々は、トークンのヒルベルト空間上のフォック空間におけるオープン量子系として、トランスフォーマーアーキテクチャに基づいて、大きな言語モデルを実現する物理モデルを構築する。
- 参考スコア(独自算出の注目度): 1.3597551064547502
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The introduction of the transformer architecture in 2017 marked the most striking advancement in natural language processing. The transformer is a model architecture relying entirely on an attention mechanism to draw global dependencies between input and output. However, we believe there is a gap in our theoretical understanding of what the transformer is, and how it works physically. From a physical perspective on modern chips, such as those chips under 28nm, modern intelligent machines should be regarded as open quantum systems beyond conventional statistical systems. Thereby, in this paper, we construct physical models realizing large language models based on a transformer architecture as open quantum systems in the Fock space over the Hilbert space of tokens. Our physical models underlie the transformer architecture for large language models.
- Abstract(参考訳): 2017年のトランスフォーマーアーキテクチャの導入は、自然言語処理の最も顕著な進歩となった。
変換器は、入力と出力の間のグローバルな依存関係を引き出すための注意機構に完全に依存するモデルアーキテクチャである。
しかし、変換器とは何か、物理的にどのように動作するのかについての理論的理解にはギャップがあると考えている。
28nm以下のチップのような現代のチップの物理的観点から、現代のインテリジェントマシンは、従来の統計システムを超えたオープン量子システムと見なされるべきである。
そこで本稿では,トークンのヒルベルト空間上のフォック空間におけるオープン量子系として,トランスフォーマーアーキテクチャに基づく大規模言語モデルを実現する物理モデルを構築する。
私たちの物理モデルは、大きな言語モデルのトランスフォーマーアーキテクチャを基盤としています。
関連論文リスト
- Characterizing the Expressivity of Transformer Language Models [56.598551673153366]
厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。
これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。
さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
論文 参考訳(メタデータ) (2025-05-29T16:30:30Z) - Body Transformer: Leveraging Robot Embodiment for Policy Learning [51.531793239586165]
ボディートランスフォーマー(ボディートランスフォーマー、Body Transformer、BoT)は、学習プロセスを導く誘導バイアスを提供することで、ロボットの体現性を活用するアーキテクチャである。
我々はロボットの体をセンサーとアクチュエータのグラフとして表現し、建築全体を通してプール情報にマスキングされた注意を頼りにしている。
結果として得られるアーキテクチャは、バニラ変換器と古典的な多層パーセプトロンを、タスク完了、スケーリング特性、計算効率の点で上回る。
論文 参考訳(メタデータ) (2024-08-12T17:31:28Z) - Why transformers are obviously good models of language [19.214362677861025]
トランスフォーマーは、代替手段よりも成功して言語を自動的に処理するニューラルネットワークである。
トランスフォーマーアーキテクチャと言語に関するある種の理論的視点との直接的な関係を強調します。
論文 参考訳(メタデータ) (2024-08-07T15:52:46Z) - A Transformer with Stack Attention [84.18399019794036]
本稿では,変圧器をベースとした言語モデルの拡張手法を提案する。
我々のスタックベースのアテンションメカニズムは、トランスフォーマーベースの言語モデルに組み込むことができ、モデルに解釈可能性のレベルを追加することができる。
スタックベースのアテンション機構の追加により、トランスフォーマーは、決定論的文脈自由言語をモデル化できるが、全てではない。
論文 参考訳(メタデータ) (2024-05-07T17:47:57Z) - Quantum linear algebra is all you need for Transformer architectures [1.660288273261283]
フォールトトレラント量子コンピューティングのレンズ下でのトランスフォーマーアーキテクチャについて検討する。
我々は,ソフトマックス関数の行ワイド適用のための新しいサブルーチンを用いて,自己アテンション行列のブロック符号化の仕方を示す。
我々のサブルーチンは変換器出力の振幅エンコーディングを作成し、予測値を得るために測定することができる。
論文 参考訳(メタデータ) (2024-02-26T16:31:28Z) - Hybrid Quantum Vision Transformers for Event Classification in High Energy Physics [3.350407101925898]
量子ベースのビジョントランスフォーマーモデルは、トレーニングと運用時間を短縮することでこの問題を軽減する可能性がある。
我々は高エネルギー物理学における分類問題に対する量子ハイブリッド・ビジョン・トランスフォーマーのいくつかのバリエーションを構築した。
以上の結果から,これらのハイブリッドモデルは,類似したパラメータを持つ古典的アナログに匹敵する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-02-01T17:05:37Z) - Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - Variational Monte Carlo with Large Patched Transformers [0.0]
トランスフォーマーのような大規模な言語モデルは、最近、テキストと画像生成に大きな力を示している。
ここでは2次元Rydberg原子配列を考察し、変分基底状態探索のための従来のリカレントニューラルネットワークよりもトランスフォーマーの精度が高いことを示す。
論文 参考訳(メタデータ) (2023-06-06T18:00:02Z) - Energy Transformer [64.22957136952725]
我々の研究は、機械学習における有望な3つのパラダイム、すなわち注意機構、エネルギーベースモデル、連想記憶の側面を組み合わせる。
本稿では,エネルギー変換器(ET,Energy Transformer)と呼ばれる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-14T18:51:22Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。