論文の概要: GPT Meets Graphs and KAN Splines: Testing Novel Frameworks on Multitask Fine-Tuned GPT-2 with LoRA
- arxiv url: http://arxiv.org/abs/2504.10490v1
- Date: Tue, 25 Mar 2025 19:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 06:33:24.995390
- Title: GPT Meets Graphs and KAN Splines: Testing Novel Frameworks on Multitask Fine-Tuned GPT-2 with LoRA
- Title(参考訳): GPTがグラフとkan Splinesを発表 - LoRAによるマルチタスクファインチューニングGPT-2上での新たなフレームワークのテスト
- Authors: Gabriel Bo, Marc Bernardino, Justin Gu,
- Abstract要約: 本稿では,学習可能なモジュールと解釈可能なモジュール,特にKAN(Kolmogorov-Arnold Networks)とグラフベース表現(GPT-2モデル)を統合する可能性について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We explore the potential of integrating learnable and interpretable modules--specifically Kolmogorov-Arnold Networks (KAN) and graph-based representations--within a pre-trained GPT-2 model to enhance multi-task learning accuracy. Motivated by the recent surge in using KAN and graph attention (GAT) architectures in chain-of-thought (CoT) models and debates over their benefits compared to simpler architectures like MLPs, we begin by enhancing a standard self-attention transformer using Low-Rank Adaptation (LoRA), fine-tuning hyperparameters, and incorporating L2 regularization. This approach yields significant improvements. To further boost interpretability and richer representations, we develop two variants that attempt to improve the standard KAN and GAT: Graph LoRA and Hybrid-KAN LoRA (Learnable GPT). However, systematic evaluations reveal that neither variant outperforms the optimized LoRA-enhanced transformer, which achieves 55.249% accuracy on the SST test set, 99.18% on the CFIMDB dev set, and 89.9% paraphrase detection test accuracy. On sonnet generation, we get a CHRF score of 42.097. These findings highlight that efficient parameter adaptation via LoRA remains the most effective strategy for our tasks: sentiment analysis, paraphrase detection, and sonnet generation.
- Abstract(参考訳): 学習可能なモジュールと解釈可能なモジュール(特にKAN)とグラフベースの表現)を事前学習したGPT-2モデルで統合し、マルチタスク学習精度を向上させる可能性について検討する。
近年の Kan と Graph attention (GAT) アーキテクチャをチェーン・オブ・思想 (CoT) モデルで使用することの増加と MLP のような単純なアーキテクチャと比較して,それらのメリットに関する議論により,ローランド適応 (LoRA) を用いた標準自己注意変換器の拡張,微調整ハイパーパラメータの導入,L2 正規化の導入などが開始された。
このアプローチは大幅な改善をもたらす。
さらに解釈可能性の向上と表現の充実を図るため,標準の Kan と GAT の Graph LoRA と Hybrid-KAN LoRA (Learnable GPT) を改良する2つの変種を開発した。
しかし、体系的な評価では、どちらの変種も最適化されたLoRAエンハンス変圧器よりも優れておらず、SSTテストセットでは55.249%、CFIMDB開発セットでは99.18%、パラフレーズ検出テスト精度は89.9%である。
ソネット生成では、CHRFスコアが42.097になる。
これらの結果から,LoRAによる効率的なパラメータ適応は,感情分析,パラフレーズ検出,ソネット生成など,我々のタスクにおいて最も効果的な戦略であることが明らかとなった。
関連論文リスト
- SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Prompt-Efficient Fine-Tuning for GPT-like Deep Models to Reduce Hallucination and to Improve Reproducibility in Scientific Text Generation Using Stochastic Optimisation Techniques [0.0]
大規模言語モデル(LLM)は、複雑な科学的テキスト生成タスクにますます採用されている。
彼らはしばしば正確性、一貫性、幻覚制御の限界に悩まされる。
この論文はAを紹介します。
Fine-Tuning’アプローチは、幻覚を緩和し、アダプタを強化することを目的として、GPTライクなモデルに適したものだ。
論文 参考訳(メタデータ) (2024-11-10T12:28:09Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Generative Parameter-Efficient Fine-Tuning [8.481707805559589]
GIFTは、トレーニング済みの重みから直接、レイヤーの微調整された重みを生成することを学習する。
この定式化ブリッジはパラメータ効率の良い微調整および表現微調整を示す。
論文 参考訳(メタデータ) (2023-12-01T16:33:57Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Stay on topic with Classifier-Free Guidance [57.28934343207042]
CFGは純粋言語モデリングにおける推論時手法として広く利用できることを示す。
CFG は Pythia, GPT-2 および LLaMA ファミリーモデルの性能をタスクの配列にわたって改善することを示す。
論文 参考訳(メタデータ) (2023-06-30T17:07:02Z) - Adaptive Sparse Convolutional Networks with Global Context Enhancement
for Faster Object Detection on Drone Images [26.51970603200391]
本稿では,スパース畳み込みに基づく検出ヘッドの最適化について検討する。
これは、小さなオブジェクトのコンテキスト情報の不十分な統合に悩まされる。
本稿では,グローバルな文脈拡張型適応スパース畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T14:42:50Z) - Adaptive Depth Graph Attention Networks [19.673509341792606]
グラフアテンションネットワーク(GAT)は、グラフ表現のための最も高度な学習アーキテクチャであると考えられている。
層数の増加に伴ってGATモデルの精度が制限される主な要因は,オーバーカッシング現象である。
本稿では,グラフの空間性に基づいた階層数を適応的に選択するGAT変種モデル-ADGATを提案する。
論文 参考訳(メタデータ) (2023-01-16T05:22:29Z) - PGTRNet: Two-phase Weakly Supervised Object Detection with Pseudo Ground
Truth Refining [10.262660606897974]
画像レベルのアノテーションだけで検知器を訓練することを目的とした弱い監視対象検出(WSOD)が注目されている。
現在の最先端のアプローチは、主に2段階のトレーニング戦略に従い、完全な教師付き検出器(FSD)と純粋なWSODモデルを統合する。
2相WSODアプローチの性能を阻害する主な問題は2つある。すなわち、不十分な学習問題と、WSODモデルによって生成されたFSDと擬似基底真理との厳密な依存である。
本稿では, 単純かつ効果的な手法である擬似基底真理改善ネットワーク(PGTRNet)を提案する。
論文 参考訳(メタデータ) (2021-08-25T19:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。