論文の概要: StackTrans: From Large Language Model to Large Pushdown Automata Model
- arxiv url: http://arxiv.org/abs/2507.15343v1
- Date: Mon, 21 Jul 2025 07:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.307765
- Title: StackTrans: From Large Language Model to Large Pushdown Automata Model
- Title(参考訳): StackTrans: 大規模言語モデルから大規模プッシュダウンオートマタモデルへ
- Authors: Kechi Zhang, Ge Li, Jia Li, Huangzhao Zhang, Yihong Dong, Jia Li, Jingjing Xu, Zhi Jin,
- Abstract要約: Transformerアーキテクチャは、人工知能の幅広い分野において目覚ましい進歩として現れてきた。
大規模言語モデル(LLM)の問題を解決するためにStackTransを提案する。
注意計算を変更する従来のアプローチとは異なり、StackTransはトランスフォーマー層間で隠された状態スタックを明示的に組み込んでいる。
- 参考スコア(独自算出の注目度): 63.37860663635374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has emerged as a landmark advancement within the broad field of artificial intelligence, effectively catalyzing the advent of large language models (LLMs). However, despite its remarkable capabilities and the substantial progress it has facilitated, the Transformer architecture still has some limitations. One such intrinsic limitation is its inability to effectively capture the Chomsky hierarchy, such as regular expressions or deterministic context-free grammars. Drawing inspiration from pushdown automata, which efficiently resolve deterministic context-free grammars using stacks, we propose StackTrans to address the aforementioned issue within LLMs. Unlike previous approaches that modify the attention computation, StackTrans explicitly incorporates hidden state stacks between Transformer layers. This design maintains compatibility with existing frameworks like flash-attention. Specifically, our design features stack operations -- such as pushing and popping hidden states -- that are differentiable and can be learned in an end-to-end manner. Our comprehensive evaluation spans benchmarks for both Chomsky hierarchies and large-scale natural languages. Across these diverse tasks, StackTrans consistently outperforms standard Transformer models and other baselines. We have successfully scaled StackTrans up from 360M to 7B parameters. In particular, our from-scratch pretrained model StackTrans-360M outperforms several larger open-source LLMs with 2-3x more parameters, showcasing its superior efficiency and reasoning capability.
- Abstract(参考訳): Transformerアーキテクチャは、人工知能の幅広い分野において目覚ましい進歩として現れ、大きな言語モデル(LLM)の出現を効果的に触媒している。
しかし、その目覚ましい機能とそれが促進した相当な進歩にもかかわらず、Transformerアーキテクチャにはいくつかの制限がある。
そのような固有の制限の一つは、正規表現や決定論的文脈自由文法のようなチョムスキー階層を効果的に捉えることができないことである。
スタックを用いて決定論的文脈自由文法を効率的に解決するプッシュダウンオートマトンからインスピレーションを得た上で,上述した問題に対処するStackTransを提案する。
注意計算を変更する従来のアプローチとは異なり、StackTransはトランスフォーマー層間で隠された状態スタックを明示的に組み込んでいる。
この設計はフラッシュアテンションのような既存のフレームワークとの互換性を維持している。
具体的には、隠れた状態のプッシュやポップアップなど、スタック操作を特徴としています。
包括的評価は、チョムスキー階層と大規模自然言語のベンチマークにまたがる。
これらの多様なタスクの中で、StackTransは標準のTransformerモデルやその他のベースラインを一貫して上回っている。
StackTransを360Mから7Bパラメータにスケールアップしました。
特に,我々のオフスクラッチ事前学習モデルStackTrans-360Mは,2~3倍のパラメータを持つ大規模オープンソースLLMよりも優れており,その優れた効率性と推論能力を示している。
関連論文リスト
- Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - A Transformer with Stack Attention [84.18399019794036]
本稿では,変圧器をベースとした言語モデルの拡張手法を提案する。
我々のスタックベースのアテンションメカニズムは、トランスフォーマーベースの言語モデルに組み込むことができ、モデルに解釈可能性のレベルを追加することができる。
スタックベースのアテンション機構の追加により、トランスフォーマーは、決定論的文脈自由言語をモデル化できるが、全てではない。
論文 参考訳(メタデータ) (2024-05-07T17:47:57Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Stack Attention: Improving the Ability of Transformers to Model
Hierarchical Patterns [17.144569385099462]
スタックアテンションは標準的なアテンションと類似しているが,構文的な監督を必要としない構文の潜在モデルで示している。
本稿では,制約パラメータ予算の下での自然言語モデリングにおいてスタックアテンションがより効果的であることを示し,機械翻訳の結果を含む。
論文 参考訳(メタデータ) (2023-10-03T02:18:06Z) - Learning Multiscale Transformer Models for Sequence Generation [33.73729074207944]
単語境界情報と句レベルの事前知識に基づいて,スケール間の関係を確立することで,マルチスケールトランスフォーマーモデルを構築する。
特に、いくつかのテストセットにおいて、効率を犠牲にすることなく、強いベースラインに対して一貫したパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2022-06-19T07:28:54Z) - Designing Effective Sparse Expert Models [45.21279650229869]
MoE(Mixture-of-Experts)とSwitch Transformerは、より大きく、より有能な言語モデルへのエネルギー効率の高い経路として提案されている。
しかし、さまざまな自然言語タスクの最先端化は、微調整中にトレーニングの不安定さと不確実な品質によって妨げられている。
計算コストは32Bエンコーダ・デコーダ変換器に匹敵する。
論文 参考訳(メタデータ) (2022-02-17T21:39:10Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。