論文の概要: Tabula RASA: Exposing and Breaking the Relational Bottleneck in Transformers
- arxiv url: http://arxiv.org/abs/2602.02834v2
- Date: Wed, 04 Feb 2026 11:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.798522
- Title: Tabula RASA: Exposing and Breaking the Relational Bottleneck in Transformers
- Title(参考訳): RASA Tabula: トランスフォーマーにおけるリレーショナルボツネックの公開と破壊
- Authors: Jonas Petersen, Camilla Mazzoleni, Riccardo Maggioni,
- Abstract要約: RASA(Relation-Aware Sparse Attention)は、リレーショナル推論のための構造的帰納バイアスを提供する最小限のアーキテクチャ修正である。
以上の結果から,複雑性理論解析に基づく最小限のアーキテクチャ変更は,マルチホップ推論を大幅に改善できることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers achieve remarkable performance across many domains, yet struggle with tasks requiring multi-hop relational reasoning over structured data. We analyze this limitation through circuit complexity: standard transformers are $\mathsf{TC}^0$-complete and cannot solve graph connectivity in constant depth, implying $Ω(k)$ layers are necessary for $k$-hop reasoning regardless of model size or training data. We introduce RASA (Relation-Aware Sparse Attention), a minimal architectural modification that provides structural inductive bias for relational reasoning. RASA adds: (1) sparse adjacency masking that restricts attention to graph-connected positions, reducing the attention pattern search space from $O(2^{n^2})$ to $O(2^m)$ for graphs with $m$ edges; and (2) learnable edge-type biases that encode relation-specific attention preferences. While RASA does not circumvent asymptotic depth requirements, the exponential reduction in attention pattern space provides stronger inductive bias for learning graph-structured functions. Empirically, on the MetaQA knowledge graph QA benchmark, RASA achieves 97.7% accuracy on 3-hop questions, outperforming EmbedKGQA (94.8%) by 2.9 percentage points. Notably, RASA's advantage grows with reasoning depth, validating that structural inductive bias is most beneficial for complex multi-hop queries. Our results demonstrate that minimal architectural modifications, grounded in complexity-theoretic analysis, can substantially improve multi-hop reasoning.
- Abstract(参考訳): トランスフォーマーは多くのドメインで顕著なパフォーマンスを達成するが、構造化データに対するマルチホップリレーショナル推論を必要とするタスクに苦労する。
標準変換器は$\mathsf{TC}^0$-completeであり、一定の深さでグラフ接続を解くことができない。
RASA(Relation-Aware Sparse Attention)は、リレーショナル推論のための構造的帰納バイアスを提供する最小限のアーキテクチャ修正である。
1)グラフ接続された位置への注意を制限し、注意パターン探索空間を$O(2^{n^2})$から$O(2^m)$に減らし、(2)関係性固有の注意傾向を符号化する学習可能なエッジ型バイアス。
RASAは漸近的な深度要求を回避しないが、注意パターン空間の指数的減少はグラフ構造関数の学習に強い帰納バイアスを与える。
経験的に、MetaQAナレッジグラフQAベンチマークでは、3ホップの質問に対して97.7%の精度を達成し、EmbedKGQA(94.8%)を2.9%上回っている。
特に、RASAの利点は推論の深さによって増大し、構造的帰納バイアスが複雑なマルチホップクエリにとって最も有益であることを示す。
以上の結果から,複雑性理論解析に基づく最小限のアーキテクチャ変更は,マルチホップ推論を大幅に改善できることが示された。
関連論文リスト
- Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent [15.291830857281015]
勾配法を用いて学習すると,トランスフォーマーが真に単純な多数関数を学習できるかどうかを検討する。
我々の分析は、$mathrmpoly(d)$グラデーションクエリ後も、Transformerモデルの一般化誤差は依然としてかなり大きいことを証明している。
論文 参考訳(メタデータ) (2025-04-07T03:08:12Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。