論文の概要: FourierMoE: Fourier Mixture-of-Experts Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2604.01762v1
- Date: Thu, 02 Apr 2026 08:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.613394
- Title: FourierMoE: Fourier Mixture-of-Experts Adaptation of Large Language Models
- Title(参考訳): FourierMoE: 大規模言語モデルのFourier Mixture-of-Experts Adaptation
- Authors: Juyong Jiang, Fan Wang, Hong Qi, Sunghun Kim, Jing Tang,
- Abstract要約: FourierMoEは、異なる周波数帯域の専門家にトークンをディスパッチする周波数適応ルータである。
シングルタスクとマルチタスクの両方で、競争ベースラインを一貫して上回る。
その結果,LLM微調整のための有効かつパラメータ効率の高いパラダイムとして,スペクトル領域の専門家適応が期待できることが明らかになった。
- 参考スコア(独自算出の注目度): 15.447455377430634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) has emerged as a crucial paradigm for adapting large language models (LLMs) under constrained computational budgets. However, standard PEFT methods often struggle in multi-task fine-tuning settings, where diverse optimization objectives induce task interference and limited parameter budgets lead to representational deficiency. While recent approaches incorporate mixture-of-experts (MoE) to alleviate these issues, they predominantly operate in the spatial domain, which may introduce structural redundancy and parameter overhead. To overcome these limitations, we reformulate adaptation in the spectral domain. Our spectral analysis reveals that different tasks exhibit distinct frequency energy distributions, and that LLM layers display heterogeneous frequency sensitivities. Motivated by these insights, we propose FourierMoE, which integrates the MoE architecture with the inverse discrete Fourier transform (IDFT) for frequency-aware adaptation. Specifically, FourierMoE employs a frequency-adaptive router to dispatch tokens to experts specialized in distinct frequency bands. Each expert learns a set of conjugate-symmetric complex coefficients, preserving complete phase and amplitude information while theoretically guaranteeing lossless IDFT reconstruction into real-valued spatial weights. Extensive evaluations across 28 benchmarks, multiple model architectures, and scales demonstrate that FourierMoE consistently outperforms competitive baselines in both single-task and multi-task settings while using significantly fewer trainable parameters. These results highlight the promise of spectral-domain expert adaptation as an effective and parameter-efficient paradigm for LLM fine-tuning.
- Abstract(参考訳): パラメータ効率細調整(PEFT)は,制約付き計算予算下での大規模言語モデル(LLM)の適応において重要なパラダイムとして登場した。
しかし、PEFTの標準的な手法は、様々な最適化目標がタスク干渉を誘発し、パラメータの予算が制限されるため、マルチタスクの微調整環境でしばしば苦労する。
最近のアプローチでは、これらの問題を緩和するためにMix-of-experts (MoE) が組み込まれているが、それらは主に空間領域で機能し、構造的冗長性とパラメータオーバーヘッドをもたらす可能性がある。
これらの制限を克服するため、スペクトル領域の適応を再構成する。
スペクトル分析により、異なるタスクが異なる周波数エネルギー分布を示し、LLM層が不均一な周波数感度を示すことが明らかとなった。
これらの知見に触発されて、周波数適応のための逆離散フーリエ変換(IDFT)とMoEアーキテクチャを統合するFourierMoEを提案する。
具体的には、FourierMoEは周波数適応ルータを使用して、異なる周波数帯域の専門家にトークンをディスパッチする。
各専門家は共役対称複素係数の集合を学習し、実数値空間重みへの損失のないIDFT再構成を理論的に保証しながら、完全な位相と振幅情報を保存する。
28のベンチマーク、複数のモデルアーキテクチャ、スケールにわたる広範囲な評価は、FourierMoEがトレーニング可能なパラメータをはるかに少なく使用しながら、シングルタスクとマルチタスクの両方で競争ベースラインを一貫して上回っていることを示している。
これらの結果は,LLM微調整のための有効かつパラメータ効率の高いパラダイムとして,スペクトル領域の専門家適応が期待できることを示す。
関連論文リスト
- Expert Pyramid Tuning: Efficient Parameter Fine-Tuning for Expertise-Driven Task Allocation [7.579163774245479]
Expert Pyramid Tuning (EPT) は、コンピュータビジョンからPEFTの領域に多スケールのピラミッドの概念を統合する新しいアーキテクチャである。
EPT は SOTA MoE-LoRA の亜種を著しく上回っている。
論文 参考訳(メタデータ) (2026-03-13T02:23:41Z) - FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。
本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。
FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2025-11-26T08:36:33Z) - General Fourier Feature Physics-Informed Extreme Learning Machine (GFF-PIELM) for High-Frequency PDEs [4.652567513453756]
物理インフォームド・エクストリーム・ラーニング・マシン(GFF-PIELM)を提案する。
GFF-PIELMは、PIELMフレームワークの高精度、効率、簡易性を保ちながら、高周波問題を効果的に処理するFFMの能力を継承している。
提案したGFF-PIELMの有効性と妥当性を明らかにするために, 合計10個の数値例を用いて5つのケーススタディを行った。
論文 参考訳(メタデータ) (2025-10-14T08:55:57Z) - F-Adapter: Frequency-Adaptive Parameter-Efficient Fine-Tuning in Scientific Machine Learning [28.598598268071587]
プレトレーニング大型演算子モデル(LOM)のためのPEFTの最初の系統的研究を行う。
また,LoRA(Lo-Rank Adaptation)により,LOMの性能はアダプタチューニングよりも著しく低下することがわかった。
アダプタのロバストな経験的ゲインとスペクトルスパースとしてのPDE解の理論的特徴により、周波数適応アダプタ(F-Adapter)を導入する。
論文 参考訳(メタデータ) (2025-09-27T08:05:28Z) - Learnable Adaptive Time-Frequency Representation via Differentiable Short-Time Fourier Transform [11.05158127763157]
本稿では,パラメータの勾配に基づく最適化を可能にするSTFTの微分可能な定式化を提案する。
提案手法はニューラルネットワークとシームレスに統合され,STFTパラメータとネットワーク重みの同時最適化が可能となる。
提案手法は,TFRの強化と下流タスクの性能向上に有効である。
論文 参考訳(メタデータ) (2025-06-26T16:24:27Z) - SpectrumFM: A Foundation Model for Intelligent Spectrum Management [99.08036558911242]
既存のインテリジェントスペクトル管理手法は、通常は小規模モデルに基づいており、認識精度、収束速度、一般化の顕著な制限に悩まされている。
本稿では、スペクトルFMと呼ばれる新しいスペクトル基盤モデルを提案し、スペクトル管理のための新しいパラダイムを確立する。
実験により、SpectrumFMは精度、堅牢性、適応性、少数ショット学習効率、収束速度の点で優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-02T04:06:39Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Incremental Spatial and Spectral Learning of Neural Operators for
Solving Large-Scale PDEs [86.35471039808023]
Incrmental Fourier Neural Operator (iFNO)を導入し、モデルが使用する周波数モードの数を徐々に増加させる。
iFNOは、各種データセット間の一般化性能を維持したり改善したりしながら、トレーニング時間を短縮する。
提案手法は,既存のフーリエニューラル演算子に比べて20%少ない周波数モードを用いて,10%低いテスト誤差を示すとともに,30%高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2022-11-28T09:57:15Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。