論文の概要: Tabula RASA: Exposing and Breaking the Relational Bottleneck in Transformers
- arxiv url: http://arxiv.org/abs/2602.02834v2
- Date: Wed, 04 Feb 2026 11:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.798522
- Title: Tabula RASA: Exposing and Breaking the Relational Bottleneck in Transformers
- Title(参考訳): RASA Tabula: トランスフォーマーにおけるリレーショナルボツネックの公開と破壊
- Authors: Jonas Petersen, Camilla Mazzoleni, Riccardo Maggioni,
- Abstract要約: RASA(Relation-Aware Sparse Attention)は、リレーショナル推論のための構造的帰納バイアスを提供する最小限のアーキテクチャ修正である。
以上の結果から,複雑性理論解析に基づく最小限のアーキテクチャ変更は,マルチホップ推論を大幅に改善できることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers achieve remarkable performance across many domains, yet struggle with tasks requiring multi-hop relational reasoning over structured data. We analyze this limitation through circuit complexity: standard transformers are $\mathsf{TC}^0$-complete and cannot solve graph connectivity in constant depth, implying $Ω(k)$ layers are necessary for $k$-hop reasoning regardless of model size or training data. We introduce RASA (Relation-Aware Sparse Attention), a minimal architectural modification that provides structural inductive bias for relational reasoning. RASA adds: (1) sparse adjacency masking that restricts attention to graph-connected positions, reducing the attention pattern search space from $O(2^{n^2})$ to $O(2^m)$ for graphs with $m$ edges; and (2) learnable edge-type biases that encode relation-specific attention preferences. While RASA does not circumvent asymptotic depth requirements, the exponential reduction in attention pattern space provides stronger inductive bias for learning graph-structured functions. Empirically, on the MetaQA knowledge graph QA benchmark, RASA achieves 97.7% accuracy on 3-hop questions, outperforming EmbedKGQA (94.8%) by 2.9 percentage points. Notably, RASA's advantage grows with reasoning depth, validating that structural inductive bias is most beneficial for complex multi-hop queries. Our results demonstrate that minimal architectural modifications, grounded in complexity-theoretic analysis, can substantially improve multi-hop reasoning.
- Abstract(参考訳): トランスフォーマーは多くのドメインで顕著なパフォーマンスを達成するが、構造化データに対するマルチホップリレーショナル推論を必要とするタスクに苦労する。
標準変換器は$\mathsf{TC}^0$-completeであり、一定の深さでグラフ接続を解くことができない。
RASA(Relation-Aware Sparse Attention)は、リレーショナル推論のための構造的帰納バイアスを提供する最小限のアーキテクチャ修正である。
1)グラフ接続された位置への注意を制限し、注意パターン探索空間を$O(2^{n^2})$から$O(2^m)$に減らし、(2)関係性固有の注意傾向を符号化する学習可能なエッジ型バイアス。
RASAは漸近的な深度要求を回避しないが、注意パターン空間の指数的減少はグラフ構造関数の学習に強い帰納バイアスを与える。
経験的に、MetaQAナレッジグラフQAベンチマークでは、3ホップの質問に対して97.7%の精度を達成し、EmbedKGQA(94.8%)を2.9%上回っている。
特に、RASAの利点は推論の深さによって増大し、構造的帰納バイアスが複雑なマルチホップクエリにとって最も有益であることを示す。
以上の結果から,複雑性理論解析に基づく最小限のアーキテクチャ変更は,マルチホップ推論を大幅に改善できることが示された。
関連論文リスト
- HELP: HyperNode Expansion and Logical Path-Guided Evidence Localization for Accurate and Efficient GraphRAG [53.30561659838455]
大きな言語モデル(LLM)は、しばしば固有の知識境界と幻覚に苦しむ。
Retrieval-Augmented Generation (RAG) は、マルチホップ推論に不可欠な構造的相互依存性をしばしば見落としている。
ヘルプは、複数の単純でマルチホップなQAベンチマークで競合性能を達成し、グラフベースのRAGベースラインよりも28.8$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-02-24T14:05:29Z) - Efficient Multi-Hop Question Answering over Knowledge Graphs via LLM Planning and Embedding-Guided Search [2.744879848686032]
知識グラフに答えるマルチホップ問題はまだ計算が難しい。
最近のアプローチでは、エンティティリンクとパスランキングの両方において、高価なLarge Language Model (LLM) の推論に依存している。
効率性と妥当性の両方に対処する2つの相補的ハイブリッドアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-24T19:27:56Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - You Don't Need Pre-built Graphs for RAG: Retrieval Augmented Generation with Adaptive Reasoning Structures [16.867592142212203]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、知識を超えた質問を処理する際に、事実的に誤った文を生成する。
Retrieval-augmented Generation (RAG)は、LLM推論をサポートするために、知識ベースからクエリ関連コンテキストを取得することで、この問題に対処する。
既存のGraphベースのRAGメソッドは、コーパスをグラフに変換するためのコストの高いプロセスに依存しており、圧倒的なトークンコストとアップデートのレイテンシを導入している。
本稿では,推論時に推論構造を動的に抽出し,事前に構築したグラフを使わずに適応検索を誘導するLogicRAGを提案する。
論文 参考訳(メタデータ) (2025-08-08T08:07:40Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers [9.50669909278749]
グルーキングを現実の事実データに拡張し、データセットの分散性の課題に対処します。
驚くべきことに、たとえ実際に誤った合成データであっても、創発的推論回路を強化することができる。
提案手法は,マルチホップ推論ベンチマークにおいて最大95-100%の精度を実現する。
論文 参考訳(メタデータ) (2025-04-29T13:33:29Z) - Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent [15.291830857281015]
勾配法を用いて学習すると,トランスフォーマーが真に単純な多数関数を学習できるかどうかを検討する。
我々の分析は、$mathrmpoly(d)$グラデーションクエリ後も、Transformerモデルの一般化誤差は依然としてかなり大きいことを証明している。
論文 参考訳(メタデータ) (2025-04-07T03:08:12Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Less is More: Hop-Wise Graph Attention for Scalable and Generalizable Learning on Circuits [12.468913984721018]
HOGAは、スケーラブルで一般化可能な方法で回路表現を学習するための新しいアテンションベースモデルである。
その結果、HOGAは様々な回路の様々な構造に適応し、分散的に効率的に訓練することができる。
論文 参考訳(メタデータ) (2024-03-02T21:33:23Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - Resprompt: Residual Connection Prompting Advances Multi-Step Reasoning in Large Language Models [73.4425450752596]
チェーン・オブ・シント(CoT)のプロンプトによって、大きな言語モデル(LLM)の推論の可能性は著しく解放された。
しかし、標準的なCoTは複数の推論ステップを必要とする問題では効果が低い。
LLMにおける多段階推論を推し進める新しいプロンプト戦略であるRESPROMPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T08:56:28Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - What Dense Graph Do You Need for Self-Attention? [73.82686008622596]
我々はハイパーキューブにおけるトークンインタラクションをモデル化し、バニラ変換器と同等あるいはそれ以上の結果を示すスパーストランスフォーマーHypercube Transformerを提案する。
様々なシーケンス長を必要とするタスクの実験は、グラフ関数の検証をうまく行いました。
論文 参考訳(メタデータ) (2022-05-27T14:36:55Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。