論文の概要: Generalizable and Efficient Automated Scoring with a Knowledge-Distilled Multi-Task Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2511.17601v1
- Date: Tue, 18 Nov 2025 04:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.282779
- Title: Generalizable and Efficient Automated Scoring with a Knowledge-Distilled Multi-Task Mixture-of-Experts
- Title(参考訳): 知識拡散型マルチタスク・オブ・エクストラルトを用いた一般化可能かつ効率的な自動スコーリング
- Authors: Luyang Fang, Tao Wang, Ping Ma, Xiaoming Zhai,
- Abstract要約: UniMoE-Guidedは複数のタスク固有の大規模モデル(教師)から単一のコンパクトでデプロイ可能なモデル(学生)に専門知識を移行する
i)クロスタスク表現のための共有エンコーダ、(ii)共有処理とタスク固有の処理のバランスをとるゲートされたMoEブロック、(iii)軽量タスクヘッドを組み合わせる。
- 参考スコア(独自算出の注目度): 5.109529226503146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated scoring of written constructed responses typically relies on separate models per task, straining computational resources, storage, and maintenance in real-world education settings. We propose UniMoE-Guided, a knowledge-distilled multi-task Mixture-of-Experts (MoE) approach that transfers expertise from multiple task-specific large models (teachers) into a single compact, deployable model (student). The student combines (i) a shared encoder for cross-task representations, (ii) a gated MoE block that balances shared and task-specific processing, and (iii) lightweight task heads. Trained with both ground-truth labels and teacher guidance, the student matches strong task-specific models while being far more efficient to train, store, and deploy. Beyond efficiency, the MoE layer improves transfer and generalization: experts develop reusable skills that boost cross-task performance and enable rapid adaptation to new tasks with minimal additions and tuning. On nine NGSS-aligned science-reasoning tasks (seven for training/evaluation and two held out for adaptation), UniMoE-Guided attains performance comparable to per-task models while using $\sim$6$\times$ less storage than maintaining separate students, and $87\times$ less than the 20B-parameter teacher. The method offers a practical path toward scalable, reliable, and resource-efficient automated scoring for classroom and large-scale assessment systems.
- Abstract(参考訳): 構築されたレスポンスの自動スコアリングは、通常、タスク毎に別々のモデルに依存し、実際の教育環境における計算リソース、ストレージ、メンテナンスを歪ませる。
我々は、複数のタスク固有の大規模モデル(教師)から専門知識を1つのコンパクトでデプロイ可能なモデル(学生)に伝達する、知識に富んだマルチタスク・オブ・エクササイズ(MoE)アプローチであるUniMoE-Guidedを提案する。
学生は結合します
(i)クロスタスク表現のための共有エンコーダ
(ii)共有処理とタスク特化処理のバランスをとるゲート型のMoEブロック、
(三)軽量タスクヘッド。
地道なラベルと教師の指導の両方で訓練され、生徒は強力なタスク固有のモデルと一致し、訓練、保存、デプロイの効率ははるかに高い。
専門家はクロスタスクのパフォーマンスを高め、最小限の追加とチューニングで新しいタスクへの迅速な適応を可能にする再利用可能なスキルを開発します。
NGSSによる9つのサイエンス推論タスク(トレーニング/評価の7つ、適応の2つ)において、UniMoE-Guidedは、20Bパラメーターの教師よりも$\sim$6$\times$と$87\times$のストレージを使用しながら、タスク毎のモデルに匹敵するパフォーマンスを達成した。
本手法は,教室および大規模評価システムにおいて,スケーラブルで信頼性が高く,資源効率の高い自動スコアリングを実現するための実践的な道筋を提供する。
関連論文リスト
- StableMTL: Repurposing Latent Diffusion Models for Multi-Task Learning from Partially Annotated Synthetic Datasets [14.867396697566257]
部分学習のセットアップをゼロショット設定に拡張し、複数のデータセット上でマルチタスクモデルをトレーニングします。
我々の方法であるStableMTLは、遅延回帰のために画像生成装置を再利用する。
タスク毎の損失に対して、注意深いバランスを必要とするのではなく、統一された潜伏損失を採用し、より多くのタスクにシームレスなスケーリングを可能にします。
論文 参考訳(メタデータ) (2025-06-09T17:59:59Z) - Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - PEMT: Multi-Task Correlation Guided Mixture-of-Experts Enables Parameter-Efficient Transfer Learning [28.353530290015794]
マルチタスク変換学習に基づくパラメータ効率の高いファインチューニングフレームワークPEMTを提案する。
我々は17のデータセットにまたがる幅広いタスクについて実験を行う。
論文 参考訳(メタデータ) (2024-02-23T03:59:18Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Knowledge Distillation for Multi-task Learning [38.20005345733544]
マルチタスク学習(MTL)は、全てのタスクで優れたパフォーマンスを達成し、計算コストを下げるための複数のタスクを実行する単一のモデルを学習することである。
そのようなモデルを学ぶには、難易度、大きさ、特性の異なる一連のタスクの損失を共同で最適化する必要がある。
本研究では,マルチタスク学習における不均衡問題に対処するために,知識蒸留に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T08:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。