論文の概要: FlatFormer: A Flat Transformer Knowledge Tracing Model Based on Cognitive Bias Injection
- arxiv url: http://arxiv.org/abs/2512.06629v1
- Date: Sun, 07 Dec 2025 02:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.4386
- Title: FlatFormer: A Flat Transformer Knowledge Tracing Model Based on Cognitive Bias Injection
- Title(参考訳): FlatFormer:認知バイアス注入に基づくフラットトランスフォーマー知識追跡モデル
- Authors: Xiao-li Xia, Hou-biao Li,
- Abstract要約: 知識追跡モデルは重要なパフォーマンス-複雑トラップ」に直面している
構造的積み重ねによる情報注入の新たな設計パラダイムに基づく合理化アーキテクチャであるFlatFormerを提案する。
4つの大規模なデータセットに対する実験は、FlatFormerが最先端のパフォーマンスを達成することを示している。
- 参考スコア(独自算出の注目度): 0.5729426778193398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Tracing (KT) models face a critical ``Performance-Complexity Trap'': capturing complex cognitive dynamics like learning sessions and memory decay typically requires deep hierarchical architectures, which incur prohibitive computational costs for real-time deployment. To resolve this, we propose FlatFormer, a streamlined architecture based on the novel design paradigm of ``Information Injection over Structural Stacking.'' Unlike parameter-heavy hierarchical models, FlatFormer leverages a standard flat Transformer augmented with two lightweight injection mechanisms: (i) a hybrid input encoding strategy combining learnable session identifiers with fixed sinusoidal step embeddings; and (ii) a pre-computed power-law bias integrated directly into attention logits to explicitly model the forgetting curve. Extensive experiments on four large-scale datasets (e.g., EdNet, Junyi) show that FlatFormer achieves state-of-the-art performance. For example, on the EdNet dataset, compared to the strongest hierarchical baseline (HiTSKT), its absolute AUC increased by 8.3%, while using less than 15% of parameters, and inference speed was about three times faster. These results validate that high cognitive fidelity does not necessitate architectural complexity.
- Abstract(参考訳): 学習セッションやメモリ崩壊といった複雑な認知ダイナミクスを捉えるには、一般的には階層的なアーキテクチャが必要です。
これを解決するためにFlatFormerを提案する。FlatFormerは,構造的積み重ねによる情報注入という斬新な設計パラダイムに基づく,合理化されたアーキテクチャである。
パラメータ重階層モデルとは異なり、FlatFormerは2つの軽量インジェクション機構を備えた標準フラットトランスフォーマーを活用している。
一 学習可能なセッション識別子と固定正弦波ステップ埋め込みを組み合わせたハイブリッド入力符号化戦略
(2)事前計算したパワーローバイアスをアテンションロジットに直接統合して、忘れる曲線を明示的にモデル化する。
4つの大規模なデータセット(例:EdNet、Junyi)に対する大規模な実験は、FlatFormerが最先端のパフォーマンスを達成することを示している。
例えば、EdNetデータセットでは、最強階層ベースライン(HiTSKT)と比較して、絶対AUCは15%未満のパラメータを使用しながら8.3%増加し、推論速度はおよそ3倍速くなった。
これらの結果は、高い認知的忠実度がアーキテクチャの複雑さを必要としないことを示す。
関連論文リスト
- FilletRec: A Lightweight Graph Neural Network with Intrinsic Features for Automated Fillet Recognition [2.402309979435103]
本稿では,特に特徴を満たすためのエンドツーエンドのデータ駆動フレームワークを提案する。
まず、フィレット認識のための大規模で多様なベンチマークデータセットを構築し、リリースする。
次に、軽量グラフニューラルネットワークであるFilletRecを提案する。
実験により、FilletRecは最先端の手法を精度と一般化の両方で超越していることが示された。
論文 参考訳(メタデータ) (2025-11-04T02:27:18Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Large EEG-U-Transformer for Time-Step Level Detection Without Pre-Training [1.3254304182988286]
局所的特徴と大域的特徴の両方を捉えることで表現を効率的に学習する単純なU字モデルを提案する。
他のウィンドウレベルの分類モデルと比較して,本手法は時間段階の予測を直接出力する。
我々のモデルは、てんかんおよび他の神経疾患における人工知能に関する国際会議において、2025年の第1回「青信号検出チャレンジ」で優勝した。
論文 参考訳(メタデータ) (2025-04-01T01:33:42Z) - Equi-GSPR: Equivariant SE(3) Graph Network Model for Sparse Point Cloud Registration [2.814748676983944]
局所球面ユークリッド3次元等分散特性をSE(3)メッセージパッシングに基づく伝搬により埋め込んだグラフニューラルネットワークモデルを提案する。
我々のモデルは、主に記述モジュール、同変グラフ層、類似性、最終的な回帰層から構成される。
3DMatchおよびKITTIデータセットで行った実験は、最先端のアプローチと比較して、我々のモデルの魅力的で堅牢な性能を示している。
論文 参考訳(メタデータ) (2024-10-08T06:48:01Z) - Phantom Embeddings: Using Embedding Space for Model Regularization in
Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。
複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。
情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-14T17:15:54Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Adversarial Audio Synthesis with Complex-valued Polynomial Networks [60.231877895663956]
音声における時間周波数(TF)表現は、実数値ネットワークとしてますますモデル化されている。
我々は,このような複雑な数値表現を自然な方法で統合するAPOLLOと呼ばれる複雑な数値ネットワークを導入する。
APOLLOは、音声生成におけるSC09の最先端拡散モデルよりも17.5%$改善され、8.2%ドルとなる。
論文 参考訳(メタデータ) (2022-06-14T12:58:59Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Revealing the Invisible with Model and Data Shrinking for
Composite-database Micro-expression Recognition [49.463864096615254]
入力複雑性とモデル複雑性を含む学習複雑性の影響を分析する。
より浅層構造と低分解能入力データを探索する再帰畳み込みネットワーク(RCN)を提案する。
学習可能なパラメータを増やさなくてもRCNと統合できる3つのパラメータフリーモジュールを開発した。
論文 参考訳(メタデータ) (2020-06-17T06:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。