論文の概要: Leveraging FourierKAN Classification Head for Pre-Trained Transformer-based Text Classification
- arxiv url: http://arxiv.org/abs/2408.08803v1
- Date: Fri, 16 Aug 2024 15:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 15:03:59.330384
- Title: Leveraging FourierKAN Classification Head for Pre-Trained Transformer-based Text Classification
- Title(参考訳): 事前学習変換器を用いたテキスト分類のためのFourierKAN分類ヘッドの活用
- Authors: Abdullah Al Imran, Md Farhan Ishmam,
- Abstract要約: 我々は、トランスフォーマーベースのエンコーダの分類ヘッドとして、KAN(Kolmogorov-Arnold Networks)と呼ばれる有望な代替手段の亜種FR-KANを紹介する。
本研究は, トランスフォーマーをベースとした事前学習モデルではなく, 従来の頭部を組み込んだ場合, F1スコアの平均精度が10%, F1スコアが11%向上することを示した。
- 参考スコア(独自算出の注目度): 0.51795041186793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For many years, transformer-based pre-trained models with Multi-layer Perceptron (MLP) heads have been the standard for text classification tasks. However, the fixed non-linear functions employed by MLPs often fall short of capturing the intricacies of the contextualized embeddings produced by pre-trained encoders. Furthermore, MLPs usually require a significant number of training parameters, which can be computationally expensive. In this work, we introduce FourierKAN (FR-KAN), a variant of the promising MLP alternative called Kolmogorov-Arnold Networks (KANs), as classification heads for transformer-based encoders. Our studies reveal an average increase of 10% in accuracy and 11% in F1-score when incorporating FR-KAN heads instead of traditional MLP heads for several transformer-based pre-trained models across multiple text classification tasks. Beyond improving model accuracy, FR-KAN heads train faster and require fewer parameters. Our research opens new grounds for broader applications of KAN across several Natural Language Processing (NLP) tasks.
- Abstract(参考訳): 長年にわたり、多層パーセプトロン(MLP)ヘッドを用いたトランスフォーマーベースの事前訓練モデルがテキスト分類タスクの標準となっている。
しかし、MLPが採用する固定された非線形関数は、事前訓練されたエンコーダによって生成された文脈的埋め込みの複雑さを捉えるには不十分であることが多い。
さらに、MLPは通常、かなりの数のトレーニングパラメータを必要とし、計算コストがかかる。
本稿では,トランスフォーマーをベースとしたエンコーダの分類ヘッドとして,KAN(Kolmogorov-Arnold Networks)と呼ばれる,有望なMLP代替品の変種であるFourierKAN(FR-KAN)を紹介する。
従来のMLPヘッドの代わりにFR-KANヘッドを組み込んだ場合,F1スコアの精度は平均10%向上し,F1スコアは11%向上した。
モデル精度の改善に加えて、FR-KANヘッドはより速くトレーニングし、より少ないパラメータを必要とする。
本研究は,いくつかの自然言語処理(NLP)タスクにまたがって,kanの幅広い応用のための新たな基盤を開く。
関連論文リスト
- Magnitude Pruning of Large Pretrained Transformer Models with a Mixture Gaussian Prior [9.878774148693575]
混合ガウシアンプレプニングと呼ばれる新しい等級ベースプルーニングアルゴリズムを導入する。
それはモデルの表現力を維持することを目的としています。
スパース変圧器の整合性に関する理論的正当性を提供する。
論文 参考訳(メタデータ) (2024-11-01T18:39:38Z) - Pre-trained Large Language Models Use Fourier Features to Compute Addition [37.56242478466735]
事前訓練された大規模言語モデル(LLM)は、驚くべき数学的推論能力を示す。
加法などの基本的な算術の計算方法はまだ不明である。
論文 参考訳(メタデータ) (2024-06-05T16:40:53Z) - Improved Implicit Neural Representation with Fourier Reparameterized Training [21.93903328906775]
Inlicit Neural Representation (INR)は、近年様々なコンピュータビジョンタスクにおいて、強力な表現パラダイムとして成功している。
既存の手法では、INRの精度を向上させるため、位置符号化や周期的アクティベーション関数といった高度な手法が研究されている。
論文 参考訳(メタデータ) (2024-01-15T00:40:41Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - NTK-approximating MLP Fusion for Efficient Language Model Fine-tuning [40.994306592119266]
訓練済みの言語モデル(PLM)を微調整することは、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。
いくつかの一般的なアプローチ(量子化や蒸留など)は、PLM微細チューニングの計算/メモリを減らすために広く研究されている。
我々は、NTK近似モジュールを融合して軽量PLMを作成することを提案する。
論文 参考訳(メタデータ) (2023-07-18T03:12:51Z) - Prediction Calibration for Generalized Few-shot Semantic Segmentation [101.69940565204816]
汎用Few-shot Semantic (GFSS) は、各画像ピクセルを、豊富なトレーニング例を持つベースクラスか、クラスごとにわずかに(例: 1-5)のトレーニングイメージを持つ新しいクラスのいずれかに分割することを目的としている。
我々は、融合したマルチレベル機能を用いて、分類器の最終予測をガイドするクロスアテンションモジュールを構築する。
私たちのPCNは、最先端の代替品よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-10-15T13:30:12Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。