論文の概要: KCM: KAN-Based Collaboration Models Enhance Pretrained Large Models
- arxiv url: http://arxiv.org/abs/2510.20278v1
- Date: Thu, 23 Oct 2025 07:06:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.464812
- Title: KCM: KAN-Based Collaboration Models Enhance Pretrained Large Models
- Title(参考訳): KCM:kan-based Collaboration Modelsによる事前学習型大規模モデルの構築
- Authors: Guangyu Dai, Siliang Tang, Yueting Zhuang,
- Abstract要約: 大規模モデルコラボレーションにおける改良手法として,Kan-based Collaborative Model (KCM)を提案する。
Kanは、破滅的な忘れを緩和しながら、優れた視認性と解釈性を提供する。
- 参考スコア(独自算出の注目度): 62.658961779827145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Pretrained Large Models(PLMs) researchers proposed large-small model collaboration frameworks, leveraged easily trainable small models to assist large models, aim to(1) significantly reduce computational resource consumption while maintaining comparable accuracy, and (2) enhance large model performance in specialized domain tasks. However, this collaborative paradigm suffers from issues such as significant accuracy degradation, exacerbated catastrophic forgetting, and amplified hallucination problems induced by small model knowledge. To address these challenges, we propose a KAN-based Collaborative Model (KCM) as an improved approach to large-small model collaboration. The KAN utilized in KCM represents an alternative neural network architecture distinct from conventional MLPs. Compared to MLPs, KAN offers superior visualizability and interpretability while mitigating catastrophic forgetting. We deployed KCM in large-small model collaborative systems across three scenarios: language, vision, and vision-language cross-modal tasks. The experimental results demonstrate that, compared with pure large model approaches, the large-small model collaboration framework utilizing KCM as the collaborative model significantly reduces the number of large model inference calls while maintaining near-identical task accuracy, thereby substantially lowering computational resource consumption. Concurrently, the KAN-based small collaborative model markedly mitigates catastrophic forgetting, leading to significant accuracy improvements for long-tail data. The results reveal that KCM demonstrates superior performance across all metrics compared to MLP-based small collaborative models (MCM).
- Abstract(参考訳): 近年,PLM (Pretrained Large Models) の研究者らは,大規模モデルを支援するため,訓練が容易な小型モデルを活用した大規模モデルコラボレーションフレームワークを提案している。
しかし、この協調パラダイムは、大きな精度の劣化、破滅的な忘れ込みの悪化、小さなモデル知識によって引き起こされる幻覚の増大といった問題に悩まされている。
これらの課題に対処するため,我々は,大規模モデルコラボレーションのための改良されたアプローチとして,Kan-based Collaborative Model (KCM)を提案する。
KCMで使用されるkanは、従来のMLPとは異なる代替のニューラルネットワークアーキテクチャである。
MLPと比較して、KANは破滅的な忘れを緩和しながら、優れた視認性と解釈性を提供する。
私たちは、KCMを3つのシナリオ(言語、ビジョン、視覚言語横断タスク)にわたって、大規模なモデル協調システムにデプロイしました。
実験結果から,KCMを協調モデルとして用いた大規模モデルコラボレーションフレームワークは,純粋に大規模モデルアプローチと比較して,ほぼ同一のタスク精度を維持しつつ,大規模モデル推論の回数を大幅に削減し,計算資源消費量を大幅に削減することを示した。
同時に、kanベースの小さなコラボレーティブモデルは破滅的な忘れを著しく軽減し、ロングテールデータの精度を大幅に向上させる。
その結果,KCM は MLP ベースの小型協調モデル (MCM) と比較して,すべての指標において優れた性能を示した。
関連論文リスト
- MCP: A Control-Theoretic Orchestration Framework for Synergistic Efficiency and Interpretability in Multimodal Large Language Models [0.0]
本研究では,モデル・コントローラ・タスク適応(MCP)に基づく3層協調フレームワークを提案する。
実験の結果,MPPフレームワークはベースラインモデルと比較して,GLUE,COCO,ScienceQAなどのクロスモーダルベンチマークタスクの性能を15~30%向上し,推論効率を40%向上させ,プレゼンテーション層を通じて解釈可能な中間結果を生成し,手動の解釈可能性スコアの90%を得ることができた。
論文 参考訳(メタデータ) (2025-09-20T09:44:11Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Co-training and Co-distillation for Quality Improvement and Compression
of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。
ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。
本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文 参考訳(メタデータ) (2023-11-06T03:29:00Z) - Domain Generalization Using Large Pretrained Models with Mixture-of-Adapters [33.401355417911084]
本研究は, OODシナリオの処理を改善し, 領域一般化問題に取り組むために, 大規模事前学習モデルの知識を活用することを目的とする。
我々は,大規模モデルで作業しながらOODロバスト性を効果的に維持するために,パラメータ効率のよい微調整(PEFT)技術を用いる。
実験と分析により、最も効果的なアプローチは、多様なモデルを集結させ、事前学習の規模を増大させることであることを確認した。
論文 参考訳(メタデータ) (2023-10-17T07:01:24Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。