論文の概要: Decoupling Knowledge and Reasoning in Transformers: A Modular Architecture with Generalized Cross-Attention
- arxiv url: http://arxiv.org/abs/2501.00823v2
- Date: Mon, 06 Jan 2025 14:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 13:45:33.463273
- Title: Decoupling Knowledge and Reasoning in Transformers: A Modular Architecture with Generalized Cross-Attention
- Title(参考訳): トランスフォーマーの知識と推論の疎結合: 一般化されたクロスアテンションを持つモジュラーアーキテクチャ
- Authors: Zhenyu Guo, Wenguang Chen,
- Abstract要約: 本稿では,知識と推論を明確に分離するモジュール型トランスフォーマーアーキテクチャを提案する。
本稿では,標準トランスフォーマーのフィードフォワードネットワーク(FFN)が特殊ケースであることを示す厳密な数学的導出を提供する。
- 参考スコア(独自算出の注目度): 9.401360346241296
- License:
- Abstract: Transformers have achieved remarkable success across diverse domains, but their monolithic architecture presents challenges in interpretability, adaptability, and scalability. This paper introduces a novel modular Transformer architecture that explicitly decouples knowledge and reasoning through a generalized cross-attention mechanism to a globally shared knowledge base with layer-specific transformations, specifically designed for effective knowledge retrieval. Critically, we provide a rigorous mathematical derivation demonstrating that the Feed-Forward Network (FFN) in a standard Transformer is a specialized case (a closure) of this generalized cross-attention, revealing its role in implicit knowledge retrieval and validating our design. This theoretical framework provides a new lens for understanding FFNs and lays the foundation for future research exploring enhanced interpretability, adaptability, and scalability, enabling richer interplay with external knowledge bases and other systems.
- Abstract(参考訳): トランスフォーマーはさまざまなドメインで大きな成功を収めていますが、そのモノリシックなアーキテクチャは、解釈可能性、適応性、スケーラビリティの課題を示しています。
本稿では,多層構造を持つ多層構造をもつ多層共通知識ベースに対して,知識と推論を明示的に分離するモジュール型トランスフォーマーアーキテクチャを提案する。
批判的に、我々は標準トランスフォーマーのフィードフォワードネットワーク(FFN)が、この一般化されたクロスアテンションの特別なケース(クロージャ)であることを示す厳密な数学的導出を提供する。
この理論フレームワークは、FFNを理解するための新しいレンズを提供し、さらなる解釈可能性、適応性、拡張性を探究する将来の研究の基礎を築き、外部の知識ベースや他のシステムとのより豊かな相互作用を可能にする。
関連論文リスト
- Can Transformers Learn Full Bayesian Inference in Context? [13.479322264788367]
コンテクストでよく使われる統計モデルに対して、変換器はベイズ推定をフルに行うことができることを示す。
本稿では,従来のネットワークと連続正規化フローのアイデアを基盤とした汎用フレームワークを提案する。
実世界のデータセットに対する実験により、我々のICLアプローチは、最先端MCMCや変分推論手法と品質が類似した後部サンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-01-28T10:04:53Z) - Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器のパラメータ化知識を用いた一階論理推論能力について検討する。
変圧器の1次推論能力は、その1次論理的推論を実行する能力を通じて評価される。
変換器における一階述語論理包含を一般化する能力を高めるため,より洗練された論理型アーキテクチャTEGAを提案する。
論文 参考訳(メタデータ) (2025-01-01T07:05:32Z) - Knowledge-enhanced Transformer for Multivariate Long Sequence Time-series Forecasting [4.645182684813973]
本研究では,変数間の概念的関係をよく定義された知識グラフ内にカプセル化する新しい手法を提案する。
PatchTST, Autoformer, Informer, Vanilla Transformer などのセマンティックアーキテクチャへの統合の影響について検討する。
この拡張により、変数間の固有の構造的関係に対処するトランスフォーマーベースのアーキテクチャが強化される。
論文 参考訳(メタデータ) (2024-11-17T11:53:54Z) - What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis [8.008567379796666]
Transformerアーキテクチャは、間違いなくディープラーニングに革命をもたらした。
中心となる注意ブロックは、ディープラーニングにおける他のほとんどのアーキテクチャコンポーネントと形式と機能の違いです。
これらの外向きの表現の背後にある根本原因と、それらを管理する正確なメカニズムは、まだ理解されていないままである。
論文 参考訳(メタデータ) (2024-10-14T18:15:02Z) - MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.05167902805405]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文 参考訳(メタデータ) (2024-04-20T08:34:39Z) - Foundations for Transfer in Reinforcement Learning: A Taxonomy of
Knowledge Modalities [28.65224261733876]
我々は、知識の一般化と伝達を精査する機会と課題を考察する。
強化学習(RL)の領域では、知識の表現は様々なモダリティを通して現れる。
この分類学は、これらのモダリティを体系的に対象とし、それらの固有の性質と異なる目的や移動のメカニズムと整合性に基づいて議論の枠組みを定めている。
論文 参考訳(メタデータ) (2023-12-04T14:55:58Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Kformer: Knowledge Injection in Transformer Feed-Forward Layers [107.71576133833148]
そこで我々は,Transformerのフィードフォワード層を通じて外部知識を組み込んだ新しい知識融合モデルKformerを提案する。
FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合法が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-01-15T03:00:27Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。