論文の概要: A Little Depth Goes a Long Way: The Expressive Power of Log-Depth Transformers
- arxiv url: http://arxiv.org/abs/2503.03961v2
- Date: Thu, 22 May 2025 20:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.864758
- Title: A Little Depth Goes a Long Way: The Expressive Power of Log-Depth Transformers
- Title(参考訳): 小さな奥行きが長い:ログ深度変換器の表現力
- Authors: William Merrill, Ashish Sabharwal,
- Abstract要約: 最近の理論的結果から、変換器は計算深度が有界であるため、長い入力に対して逐次的推論問題を表現できないことが示されている。
深さ$Theta(log n)$ の高度に均一な変換器でも、2つの重要な問題を表現できることを示す。
これらの問題を定量的に表現するために、入力長で深さがどのように成長するかを定量的に予測する。
- 参考スコア(独自算出の注目度): 29.839710738657203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent theoretical results show transformers cannot express sequential reasoning problems over long inputs, intuitively because their computational depth is bounded. However, prior work treats the depth as a constant, leaving it unclear to what degree bounded depth may suffice for solving problems over short inputs, or how increasing the transformer's depth affects its expressive power. We address these questions by analyzing transformers whose depth can grow minimally with context length $n$. We show even highly uniform transformers with depth $\Theta(\log n)$ can express two important problems: recognizing regular languages, which captures state tracking abilities and was known to be expressible only by an unconventional, non-uniform model of transformers, and graph connectivity, which underlies multi-step reasoning. Notably, both of these problems cannot be expressed by fixed-depth transformers under standard complexity conjectures, demonstrating the expressivity benefit of growing depth. Moreover, our theory quantitatively predicts how depth must grow with input length to express these problems, showing that depth scaling is more efficient than scaling width or chain-of-thought steps. Empirically, our detailed experiments designed to bridge the expressivity vs. learnability gap reveal that our theoretical depth requirements for regular language recognition closely match the practical depth requirements for successfully training transformers. Thus, our results clarify how depth affects a transformer's reasoning capabilities, and provide practical guidance for effective depth selection for sequential reasoning.
- Abstract(参考訳): 最近の理論的結果から、変換器は計算深度が有界であるため、長い入力に対して逐次的推論問題を表現できないことが示されている。
しかし、事前の作業では、深さを一定として扱い、短い入力よりもどの程度に境界があるか、あるいはトランスフォーマーの深さが表現力にどのように影響するかがはっきりしない。
文脈長$n$で最小限に成長できる変換器を解析することにより,これらの問題に対処する。
我々は,高度に均一な変換器の深度を$\Theta(\log n)$で表すことで,状態追跡能力を捉える正規言語を認識すること,非一様変圧器の非一様モデルでのみ表現できること,マルチステップ推論の基盤となるグラフ接続という,2つの重要な問題を表現できることを示した。
特に、これらの問題は標準複雑性予想の下では固定深度変換器では表現できず、深さの増大による表現率の利点を示す。
さらに,本理論は,これらの問題を表現するために,入力長さでどのように深さが成長するかを定量的に予測し,幅のスケーリングやチェーン・オブ・プリート・ステップよりも深度スケーリングの方が効率的であることを示す。
実験的に,表現率と学習可能性のギャップを埋めるために設計された詳細な実験により,正規言語認識における理論的な深度要件が,変圧器の訓練に成功するための実践的な深度要件と密接に一致していることが明らかになった。
そこで本研究では,変圧器の推論能力に及ぼす深さの影響を明らかにし,シーケンシャル推論のための効果的な深度選択のための実践的ガイダンスを提供する。
関連論文リスト
- On the Robustness of Transformers against Context Hijacking for Linear Classification [26.1838836907147]
Transformer-based Large Language Models (LLM) は、強力なコンテキスト内学習能力を実証している。
それらは、コンテキストハイジャックとして知られる、事実的に正しいコンテキストによって破壊される。
十分に訓練された深部変圧器は、経験的観測と整合した高い強靭性を実現することができることを示す。
論文 参考訳(メタデータ) (2025-02-21T17:31:00Z) - Lower Bounds for Chain-of-Thought Reasoning in Hard-Attention Transformers [5.4649464326326]
整合推論とスクラッチパッドは、変換器の計算能力を高める重要なツールとして登場した。
本研究では,異なるアルゴリズム問題にまたがるCoTステップ数に対する体系的下界の研究を開始する。
論文 参考訳(メタデータ) (2025-02-04T15:14:01Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Faster Depth-Adaptive Transformers [71.20237659479703]
深さ適応型ニューラルネットワークは入力単語の硬さに応じて動的に深さを調整することができる。
従来の作業は一般的に、計算が各レイヤで続行するか停止するかを決定するために停止ユニットを構築する。
本稿では,停止ユニットを除去し,必要な深さを事前に推定し,より高速な深度適応モデルを生成する。
論文 参考訳(メタデータ) (2020-04-27T15:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。