論文の概要: A Little Depth Goes a Long Way: The Expressive Power of Log-Depth Transformers
- arxiv url: http://arxiv.org/abs/2503.03961v1
- Date: Wed, 05 Mar 2025 23:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:57:49.221270
- Title: A Little Depth Goes a Long Way: The Expressive Power of Log-Depth Transformers
- Title(参考訳): 小さな奥行きが長い:ログ深度変換器の表現力
- Authors: William Merrill, Ashish Sabharwal,
- Abstract要約: 最近の理論的結果から、変換器は計算深度が有界であるため、長い入力長で逐次推論問題を表現できないことが示されている。
深さ$Theta(log n)$は正規言語認識とグラフ接続の2つの重要な問題を表現することができる。
我々の理論は、これらの問題を表現するために、入力長さでどのように深さが成長するかを定量的に予測し、深さのスケーリングは、幅のスケーリングやチェーンのステップよりも効率的であることを示す。
- 参考スコア(独自算出の注目度): 29.839710738657203
- License:
- Abstract: Recent theoretical results show transformers cannot express sequential reasoning problems over long input lengths, intuitively because their computational depth is bounded. However, prior work treats the depth as a constant, leaving it unclear to what degree bounded depth may suffice for solving problems over short inputs, or how increasing the transformer's depth affects its expressive power. We address these questions by analyzing the expressive power of transformers whose depth can grow minimally with context length $n$. We show even highly uniform transformers with depth $\Theta(\log n)$ can express two important problems: recognizing regular languages, which captures state tracking abilities, and graph connectivity, which underlies multi-step reasoning. Notably, both of these problems cannot be expressed by fixed-depth transformers under standard complexity conjectures, demonstrating the expressivity benefit of growing depth. Moreover, our theory quantitatively predicts how depth must grow with input length to express these problems, showing that depth scaling is more efficient than scaling width or chain-of-thought steps. Empirically, we find our theoretical depth requirements for regular language recognition match the practical depth requirements of transformers remarkably well. Thus, our results clarify precisely how depth affects transformers' reasoning capabilities, providing potential practical insights for designing models that are better at sequential reasoning.
- Abstract(参考訳): 最近の理論的結果から、変換器は計算深度が有界であるため、長い入力長で逐次推論問題を表現できないことが示されている。
しかし、事前の作業では、深さを一定として扱い、短い入力よりもどの程度に境界があるか、あるいはトランスフォーマーの深さが表現力にどの程度影響するかがはっきりしない。
文脈長$n$で最小に成長できる変換器の表現力を分析することで,これらの問題に対処する。
深さ$\Theta(\log n)$ の高度に均一な変換器でも、状態追跡能力を捉える正規言語認識と、マルチステップ推論の基盤となるグラフ接続という、2つの重要な問題を表現することができる。
特に、これらの問題は標準複雑性予想の下では固定深度変換器では表現できず、深さの増大による表現率の利点を示す。
さらに,本理論は,これらの問題を表現するために,入力長さでどのように深さが成長するかを定量的に予測し,幅のスケーリングやチェーン・オブ・プリート・ステップよりも深度スケーリングの方が効率的であることを示す。
実験により,正規言語認識の理論的深度要件は,変圧器の実用的深度要件とよく一致していることがわかった。
そこで本研究では, 逐次的推論におけるモデル設計において, 深度が変圧器の推論能力にどのような影響を及ぼすかを明らかにする。
関連論文リスト
- Lower Bounds for Chain-of-Thought Reasoning in Hard-Attention Transformers [5.4649464326326]
整合推論とスクラッチパッドは、変換器の計算能力を高める重要なツールとして登場した。
本研究では,異なるアルゴリズム問題にまたがるCoTステップ数に対する体系的下界の研究を開始する。
論文 参考訳(メタデータ) (2025-02-04T15:14:01Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Understanding Transformer Reasoning Capabilities via Graph Algorithms [25.08208816144745]
我々は、トランスフォーマースケーリングレギュレーションがアルゴリズムの様々なクラスを完璧に解けるかを検討する。
その結果、トランスフォーマーは多くのグラフ推論タスクで優れており、特殊なグラフニューラルネットワークよりも優れています。
論文 参考訳(メタデータ) (2024-05-28T18:31:14Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Faster Depth-Adaptive Transformers [71.20237659479703]
深さ適応型ニューラルネットワークは入力単語の硬さに応じて動的に深さを調整することができる。
従来の作業は一般的に、計算が各レイヤで続行するか停止するかを決定するために停止ユニットを構築する。
本稿では,停止ユニットを除去し,必要な深さを事前に推定し,より高速な深度適応モデルを生成する。
論文 参考訳(メタデータ) (2020-04-27T15:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。