Fugu-MT 論文翻訳(概要): Knee-Deep in C-RASP: A Transformer Depth Hierarchy

論文の概要: Knee-Deep in C-RASP: A Transformer Depth Hierarchy

arxiv url: http://arxiv.org/abs/2506.16055v1
Date: Thu, 19 Jun 2025 06:27:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:04.958269
Title: Knee-Deep in C-RASP: A Transformer Depth Hierarchy
Title（参考訳）: C-RASP の Knee-Deep: トランスフォーマーの深さ階層
Authors: Andy Yang, Michaël Cadilhac, David Chiang,
Abstract要約: 内部の注意を除いた固定精度の変圧器について検討する。この変圧器のサブクラスはプログラミング言語C-RASPと表現的に等価であることを示す。第二に、より深いC-RASPプログラムはより浅いC-RASPプログラムよりも表現力が高いことを証明する。
参考スコア（独自算出の注目度）: 7.9266383017424795
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It has been observed that transformers with greater depth (that is, more layers) have more capabilities, but can we establish formally which capabilities are gained with greater depth? We answer this question with a theoretical proof followed by an empirical study. First, we consider transformers that round to fixed precision except inside attention. We show that this subclass of transformers is expressively equivalent to the programming language C-RASP and this equivalence preserves depth. Second, we prove that deeper C-RASP programs are more expressive than shallower C-RASP programs, implying that deeper transformers are more expressive than shallower transformers (within the subclass mentioned above). These results are established by studying a form of temporal logic with counting operators, which was shown equivalent to C-RASP in previous work. Finally, we provide empirical evidence that our theory predicts the depth required for transformers without positional encodings to length-generalize on a family of sequential dependency tasks.
Abstract（参考訳）: より深い深さ(つまりより多くの層)を持つトランスフォーマーはより多くの能力を持つことが観察されているが、より深い深さで得られる能力を正式に確立できるだろうか? 我々はこの疑問に理論的証明を加えて答え、実証的研究を行った。まず、内部の注意を除いた固定精度の変圧器について検討する。この変圧器のサブクラスはプログラミング言語C-RASPと表現的に等価であることを示し、この等価性は深さを保存する。第二に、より深いC-RASPプログラムはより浅いC-RASPプログラムよりも表現力が高いことを示し、より深い変換プログラムはより浅い変換プログラムよりも表現力が高いことを示唆する。これらの結果は,従来のC-RASPに匹敵する数演算子を用いて時間論理の形式を研究することによって確立された。最後に, 逐次的依存タスクの族に対して, 位置エンコーディングを伴わない変換器の深さを予測できることを示す実験的な証拠を提供する。

関連論文リスト

Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights [47.62295798627317]
この研究は、多様体上のノイズの多い入力データを含む回帰タスクにおける変換器の性能を分析することによって理論的基礎を確立する。我々は、多様体の内在次元に決定的に依存する近似と一般化誤差を証明した。この結果から,入力データに高次元ノイズが伴う場合においても,学習課題における低複雑さ構造を活用できることが示唆された。
論文参考訳（メタデータ） (2025-05-06T05:41:46Z)
A Little Depth Goes a Long Way: The Expressive Power of Log-Depth Transformers [29.839710738657203]
最近の理論的結果から、変換器は計算深度が有界であるため、長い入力に対して逐次的推論問題を表現できないことが示されている。深さ$Theta(log n)$ の高度に均一な変換器でも、2つの重要な問題を表現できることを示す。これらの問題を定量的に表現するために、入力長で深さがどのように成長するかを定量的に予測する。
論文参考訳（メタデータ） (2025-03-05T23:26:25Z)
On the Robustness of Transformers against Context Hijacking for Linear Classification [26.1838836907147]
Transformer-based Large Language Models (LLM) は、強力なコンテキスト内学習能力を実証している。それらは、コンテキストハイジャックとして知られる、事実的に正しいコンテキストによって破壊される。十分に訓練された深部変圧器は、経験的観測と整合した高い強靭性を実現することができることを示す。
論文参考訳（メタデータ） (2025-02-21T17:31:00Z)
On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。 We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文参考訳（メタデータ） (2024-10-29T03:27:56Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Transformers are Efficient Compilers, Provably [11.459397066286822]
トランスフォーマーベースの大規模言語モデル(LLM)は、幅広い言語関連タスクにおいて驚くほど堅牢なパフォーマンスを示している。本稿では,表現力の観点から,トランスフォーマーをコンパイラとして用いることの正式な調査に向けて第一歩を踏み出す。代表言語であるMini-Huskyを導入し、現代のC言語の特徴をカプセル化する。
論文参考訳（メタデータ） (2024-10-07T20:31:13Z)
Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers [8.908747084128397]
時間カウントロジックの $textsfK_textt$[#] と RASP の $textsfC-RASP$ を紹介します。それらが互いに等価であることを示し、それらが結合されていない入力サイズを持つ将来のマスキング型ソフトアテンショントランスの形式的表現性に最もよく知られた下界であることを示す。
論文参考訳（メタデータ） (2024-04-05T20:36:30Z)
How Transformers Learn Causal Structure with Gradient Descent [44.31729147722701]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文参考訳（メタデータ） (2024-02-22T17:47:03Z)
AlgoFormer: An Efficient Transformer Framework with Algorithmic Structures [80.28359222380733]
アルゴリズム機能を備えたトランスフォーマーを実現するために,AlgoFormerと呼ばれる新しいトランスフォーマーフレームワークを設計する。特に、人間の設計した学習アルゴリズムの構造に触発されて、我々のトランスフォーマーフレームワークは、タスク前処理に責任を持つ事前変換器で構成されています。いくつかの理論的および実証的な結果は、設計されたトランスフォーマーがアルゴリズム表現と学習を行う可能性があることを示すために提示される。
論文参考訳（メタデータ） (2024-02-21T07:07:54Z)
Why "classic" Transformers are shallow and how to make them go deep [4.520356456308492]
Transformerの主なイノベーションは、コンテキスト情報をキャプチャするセルフアテンションメカニズムである。オリジナルのTransformerのデザインを、より深みのあるモデルに拡張することは、非常に難しいことが判明した。本研究は,SA機構を明示的にあるいは暗黙的に低下させる既存のアプローチとは対照的に,外科的に過剰な類似性を除去する新たな戦略を提案する。
論文参考訳（メタデータ） (2023-12-11T07:49:16Z)
On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文参考訳（メタデータ） (2021-06-30T17:09:47Z)
Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。 RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文参考訳（メタデータ） (2021-06-13T13:04:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。