論文の概要: The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling
- arxiv url: http://arxiv.org/abs/2605.28864v1
- Date: Fri, 22 May 2026 00:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.932577
- Title: The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling
- Title(参考訳): 認知カテゴリー変換器:言語モデリングのためのカテゴリー論的帰納的バイアス
- Authors: Al Kari,
- Abstract要約: Cognitive Categorical Transformer (CCT)は、事前訓練されたGPT-2のバックボーンを、カテゴリー理論と認知科学から派生したコンポーネントで強化する。
一致したプロトコルの下では、CCTは21.27の検証難易度に達し、同じ細調整のGPT-2のベースラインでは24.19である。
7相のアクティベーションスケジュール全体でバイパスされたGT-Fullのsimplicialメッセージパスを保持するリトレインからスクラッチのアブレーションは23.72 PPLに達する。
simplicial message passが306で言語モデルパープレキシティを向上させる最初のアブレーション検証証拠を提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Cognitive Categorical Transformer (CCT) is a 306M-parameter architecture that augments a pretrained GPT-2 Small backbone with cognitively grounded components derived from category theory and several inspirations from cognitive science. Under a matched-step protocol (215,000 optimizer steps, matched data, matched optimizer and schedule) on WikiText-103, CCT reaches 21.27 validation perplexity, compared with 24.19 for an identically fine-tuned GPT-2 Small baseline. The architecture therefore contributes a 2.92 PPL (12% relative) reduction beyond what in-domain fine-tuning alone provides. A retrain-from-scratch ablation that holds GT-Full simplicial message passing bypassed across the entire seven-phase activation schedule reaches 23.72 PPL, localizing 84% of the architectural improvement (2.45 of 2.92 PPL) to GT-Full. We present the first ablation-validated evidence that simplicial message passing improves language-model perplexity at the 306M-parameter scale on WikiText-103. Published GPT-2 Large reaches 22.05 zero-shot PPL on WikiText-103 with 6.2x more parameters than GPT-2 Small; this paper treats that number as an external published reference, not as the architectural benchmark. Three negative results on consistency-style categorical priors (sheaf smoothing, adjunction round-trip, curvature regularization) and the joint structural-prior result for GT-Full and PrecisionWeightedPP together support an empirical pattern termed the *structure/consistency distinction*, in which categorical priors that add new topology improve language modeling and those that enforce a consistency identity do not.
- Abstract(参考訳): 認知カテゴリー変換器 (Cognitive Categorical Transformer, CCT) は、306Mのパラメータアーキテクチャで、事前訓練されたGPT-2 の小さなバックボーンを増強する。
WikiText-103のマッチしたプロトコル(215,000のオプティマイザステップ、マッチしたデータ、マッチしたオプティマイザとスケジュール)では、CCTは21.27の検証難易度に達した。
したがって、アーキテクチャはドメイン内微細チューニングのみが提供するものよりも2.92 PPL(12%の相対的な)削減に寄与する。
7相のアクティベーションスケジュール全体にわたってバイパスされたGT-Fullのsimplicialメッセージパスを保持するリトレインからスクラッチのアブレーションは23.72 PPLに達し、アーキテクチャ改善(2.45対2.92 PPL)の84%をGT-Fullにローカライズする。
WikiText-103の306Mパラメータスケールにおいて,単純なメッセージパッシングによって言語モデルパープレキシティが向上するという,最初のアブレーション検証された証拠を提示する。
GPT-2 LargeはWikiText-103上で22.05のゼロショットPPLに達し、GPT-2 Smallより6.2倍多いパラメータを持つ。
GT-Full と Precision WeightedPP の整合性スタイルのカテゴリ先行(平滑化、随伴ラウンドトリップ、曲率正則化)と結合構造優先結果の3つの負の結果は、*structure/Consistency distinction* と呼ばれる経験的パターンをサポートしており、新しいトポロジを付加するカテゴリ先行は言語モデリングを改善し、一貫性同一性を強制するものではない。
関連論文リスト
- Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization [54.749573452394664]
定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。
我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いて, モデルがプロンプトプロンプトからではなく, データをバインドする。
我々は,モデルのみをバインディングのみに微調整することで仮説を検証し,3つの構造的に異なる最適化カテゴリにおいて,エンドツーエンドのSFTおよびRLよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-05-20T21:25:41Z) - Global and Local Topology-Aware Attention with Persistent Homology and Euler Biases for Time-Series Forecasting [0.0]
時系列はしばしば、接続性、サイクル、シェルのような幾何学、方向変化、非線形近傍を含む予測幾何学構造を符号化する。
永続的ホモロジー(H0-H2)を用いた注意ログにそのような構造を加えるトポロジ対応アテンションフレームワークを提案する。
我々は,軽量アテンション/ライダー,PatchTSTForRegression,TimeSeriesTransformerForPredictionという3つのアーキテクチャファミリの保護されたトポロジ対応のバリエーションを評価した。
論文 参考訳(メタデータ) (2026-05-04T21:19:12Z) - SEER: Spectral Entropy Encoding of Roles for Context-Aware Attention-Based Design Pattern Detection [0.0]
本稿では,ソースコードからGang of Four(GoF)デザインパターンを検出するために,従来のContext Is All You Needのアップグレード版を提案する。
SEERはこれらの制限に、(i)各クラスの相互作用グラフのラプラシアンスペクトルからメンバーごとのロール埋め込みを導出するスペクトルエントロピーロールエンコーダ、(ii)メソッドカテゴリに経験的校正期間を割り当てる時間重呼出コンテキストの2つの原則で対処する。
PyDesignNet上のSEER(1,832ファイル、35,000のシーケンス、23のGoFパターン)を評価し、以前のシステムよりも一貫した利得を観察する。
論文 参考訳(メタデータ) (2026-01-19T19:13:40Z) - The Digital Sous Chef -- A Comparative Study on Fine-Tuning Language Models for Recipe Generation [2.497854684676663]
本稿では,GPT-2大モデル(774M)とGPT-2小モデル(124M)と,RecipeDB 5-cuisineコーパス上の従来のLSTM/RNNベースラインとを比較検討した。
キーとなるコントリビューションは、23個の共通分数トークンとカスタム構造マーカーで語彙を拡大するトークン化戦略です。
論文 参考訳(メタデータ) (2025-08-20T13:53:13Z) - Is Architectural Complexity Overrated? Competitive and Interpretable Knowledge Graph Completion with RelatE [6.959701672059059]
RelatEは、エンティティとリレーションの二重表現を効率的に統合する、解釈可能でモジュラーな方法である。
標準ベンチマークにおいて、競争力や優れたパフォーマンスを達成する。
摂動実験では、MRRはTransEと比較して最大61%、RotatEと比較して最大19%減少し、ロバスト性が改善された。
論文 参考訳(メタデータ) (2025-05-25T04:36:52Z) - A general language model for peptide identification [3.856457290796735]
PDeepPPは、事前訓練されたタンパク質言語モデルとハイブリッドトランスフォーマー-畳み込みアーキテクチャを統合する統合ディープラーニングフレームワークである。
大規模かつ正確なペプチド分析を可能にすることにより、PDeepPPは生物医学研究と疾患治療のための新しい治療標的の発見を支援している。
論文 参考訳(メタデータ) (2025-02-21T17:31:22Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。