Fugu-MT 論文翻訳(概要): Monkey Jump : MoE-Style PEFT for Efficient Multi-Task Learning

論文の概要: Monkey Jump : MoE-Style PEFT for Efficient Multi-Task Learning

arxiv url: http://arxiv.org/abs/2601.06356v1
Date: Fri, 09 Jan 2026 23:42:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-13 19:08:00.769129
Title: Monkey Jump : MoE-Style PEFT for Efficient Multi-Task Learning
Title（参考訳）: モンキージャンプ : 効率的なマルチタスク学習のためのMoEスタイルPEFT
Authors: Nusrat Jahan Prottasha, Md Kowsher, Chun-Nam Yu, Chen Chen, Ozlem Garibay,
Abstract要約: Monkey Jumpは、パラメータ効率の良い微調整にMix-of-expertsスタイルの特殊化をもたらす方法である。アーキテクチャに依存しず、任意のアダプタベースのパラメータ効率の微調整手法に適用できる。
参考スコア（独自算出の注目度）: 8.894495834317222
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mixture-of-experts variants of parameter-efficient fine-tuning enable per-token specialization, but they introduce additional trainable routers and expert parameters, increasing memory usage and training cost. This undermines the core goal of parameter-efficient fine-tuning. We propose Monkey Jump, a method that brings mixture-of-experts-style specialization to parameter-efficient fine-tuning without introducing extra trainable parameters for experts or routers. Instead of adding new adapters as experts, Monkey Jump treats the adapters already present in each Transformer block (such as query, key, value, up, and down projections) as implicit experts and routes tokens among them. Routing is performed using k-means clustering with exponentially moving averaged cluster centers, requiring no gradients and no learned parameters. We theoretically show that token-wise routing increases expressivity and can outperform shared adapters by avoiding cancellation effects. Across multi-task experiments covering 14 text, 14 image, and 19 video benchmarks, Monkey Jump achieves competitive performance with mixture-of-experts-based parameter-efficient fine-tuning methods while using 7 to 29 times fewer trainable parameters, up to 48 percent lower memory consumption, and 1.5 to 2 times faster training. Monkey Jump is architecture-agnostic and can be applied to any adapter-based parameter-efficient fine-tuning method.
Abstract（参考訳）: Mixture-of-expertsのパラメータ効率の良い微調整は、トークンごとの特殊化を可能にするが、トレーニング可能なルータとエキスパートパラメータが追加され、メモリ使用量の増加とトレーニングコストが向上する。これはパラメータ効率の良い微調整のコア目標を損なう。本研究では,エキスパートやルータに余分なトレーニング可能なパラメータを導入することなく,パラメータ効率の良い微調整を実現する手法であるMonkey Jumpを提案する。 Monkey Jumpは、新しいアダプタを専門家として追加する代わりに、トランスフォーマーブロック(クエリ、キー、値、アップ、ダウンプロジェクションなど)にすでに存在するアダプタを暗黙のエキスパートとして扱い、トークンをルートする。ルーティングはk平均クラスタリングと指数関数的に動く平均クラスタセンターを使用して行われ、勾配や学習パラメータは不要である。理論的には、トークンワイドルーティングは表現性を高め、キャンセル効果を回避して共有アダプタよりも優れていることを示す。 14のテキスト、14の画像、19のビデオベンチマークをカバーしたマルチタスク実験を通じて、Monkey Jumpは、訓練可能なパラメータの7～29倍、最大48%のメモリ消費、1.5～2倍の高速トレーニングを使用しながら、エキスパートの混合に基づくパラメータ効率の高い微調整手法による競合的なパフォーマンスを実現している。 Monkey Jumpはアーキテクチャに依存しないため、任意のアダプタベースのパラメータ効率の微調整メソッドに適用できる。

関連論文リスト

HyperAdapt: Simple High-Rank Adaptation [3.4961780690075854]
HyperAdaptは、トレーニング可能なパラメータの数を大幅に削減する、パラメータ効率のよい微調整手法である。 GLUE、算術推論、コモンセンス推論ベンチマークの実験では、HyperAdaptは完全な微調整および最先端PEFT法の性能とほぼ一致している。
論文参考訳（メタデータ） (2025-09-23T04:29:26Z)
MEPT: Mixture of Expert Prompt Tuning as a Manifold Mapper [75.6582687942241]
本稿では,Mixture of Expert Prompt Tuning (MEPT) を効果的かつ効率的な多様体マッピングフレームワークとして提案する。 MEPTは複数のプロンプト専門家を統合し、多様な非定常データ分布を適応的に学習する。経験的評価により、MEPTはSuperGLUE上でいくつかの最先端パラメータの効率的なベースラインより優れていることが示された。
論文参考訳（メタデータ） (2025-08-31T21:19:25Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
MoPE: Mixture of Prompt Experts for Parameter-Efficient and Scalable Multimodal Fusion [29.46189153751869]
プロンプトエキスパートの混合 (Mixture of Prompt Experts, MOPE) は、標準のプロンプトを分解することで制限を克服するために設計された最初の技術である。本手法は, トレーニングデータとトレーニング可能なパラメータの総数により, より効果的にスケールできることを示す。
論文参考訳（メタデータ） (2024-03-14T17:47:10Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
Adapters Mixup: Mixing Parameter-Efficient Adapters to Enhance the Adversarial Robustness of Fine-tuned Pre-trained Text Classifiers [9.250758784663411]
AdpMixupは、アダプタによる微調整とミックスアップによる敵の増強を組み合わせて、堅牢な推論のために既存の知識を動的に活用する。実験によると、AdpMixupは、既知の攻撃と未知の攻撃の両方において、トレーニング効率と堅牢性の間の最良のトレードオフを達成する。
論文参考訳（メタデータ） (2024-01-18T16:27:18Z)
AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文参考訳（メタデータ） (2022-05-24T23:41:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。