論文の概要: Tabula RASA: Exposing and Breaking the Relational Bottleneck in Transformers
- arxiv url: http://arxiv.org/abs/2602.02834v1
- Date: Mon, 02 Feb 2026 21:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.099685
- Title: Tabula RASA: Exposing and Breaking the Relational Bottleneck in Transformers
- Title(参考訳): RASA Tabula: トランスフォーマーにおけるリレーショナルボツネックの公開と破壊
- Authors: Jonas Petersen, Camilla Mazzoleni, Riccardo Maggioni,
- Abstract要約: トランスフォーマーは多くのドメインで顕著なパフォーマンスを達成するが、構造化データに対するマルチホップリレーショナル推論を必要とするタスクに苦労する。
標準的な変換器は$mathsfTC0$-completeであり、$k$-hop推論には$(k)$レイヤが必要である。
RASA(Relation-Aware Sparse Attention)は,(1)注目点にリレーショナル構造を注入するエッジ型埋め込み,(2)グラフ隣接位置への注意を制限するスパースマスキングである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers achieve remarkable performance across many domains, yet struggle with tasks requiring multi-hop relational reasoning over structured data. We analyze this limitation through circuit complexity: standard transformers are $\mathsf{TC}^0$-complete and require $Ω(k)$ layers for $k$-hop reasoning. We introduce RASA (Relation-Aware Sparse Attention), a minimal modification adding: (1) edge-type embeddings that inject relational structure into attention scores, and (2) sparse masking that restricts attention to graph-adjacent positions. While RASA has the same asymptotic depth requirements, sparse masking reduces the attention search space from $O(2^{n^2})$ to $O(2^m)$ patterns, and edge biases provide explicit relation routing. Empirically, on MetaQA (1/2/3-hop) and WebQuestionsSP, RASA outperforms standard transformers and matches GPT-4 at lower cost, with advantages growing with reasoning depth (+7.1 points on 3-hop). We do not claim formal learnability guarantees; the contribution is empirical validation that minimal structural modifications substantially improve multi-hop reasoning.
- Abstract(参考訳): トランスフォーマーは多くのドメインで顕著なパフォーマンスを達成するが、構造化データに対するマルチホップリレーショナル推論を必要とするタスクに苦労する。
標準的な変換器は$\mathsf{TC}^0$-completeであり、$k$-hop推論には$Ω(k)$層が必要である。
RASA(Relation-Aware Sparse Attention)は,(1)注目点にリレーショナル構造を注入するエッジ型埋め込み,(2)グラフ隣接位置への注意を制限するスパースマスキングである。
RASAは漸近的な深度要件を持つが、スパースマスキングは注意探索空間を$O(2^{n^2})$から$O(2^m)$パターンに減らし、エッジバイアスは明示的な関係ルーティングを提供する。
実証的に、MetaQA (1/2/3ホップ) と WebQuestionsSP では、RASA は標準トランスフォーマーより優れ、GPT-4 と低いコストで一致し、推論深度(3ホップで+7.1ポイント)で利点が増大する。
我々は、形式的な学習可能性保証を主張せず、最小限の構造修正がマルチホップ推論を大幅に改善する実証的な検証である。
関連論文リスト
- Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent [15.291830857281015]
勾配法を用いて学習すると,トランスフォーマーが真に単純な多数関数を学習できるかどうかを検討する。
我々の分析は、$mathrmpoly(d)$グラデーションクエリ後も、Transformerモデルの一般化誤差は依然としてかなり大きいことを証明している。
論文 参考訳(メタデータ) (2025-04-07T03:08:12Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。