論文の概要: Efficient Multi-Task Inferencing: Model Merging with Gromov-Wasserstein Feature Alignment
- arxiv url: http://arxiv.org/abs/2503.09774v1
- Date: Wed, 12 Mar 2025 19:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:40.670102
- Title: Efficient Multi-Task Inferencing: Model Merging with Gromov-Wasserstein Feature Alignment
- Title(参考訳): 効率的なマルチタスク推論:Gromov-Wasserstein特徴アライメントを用いたモデルマージ
- Authors: Luyang Fang, Ehsan Latif, Haoran Lu, Yifan Zhou, Ping Ma, Xiaoming Zhai,
- Abstract要約: 本稿では,Gromov-Wasserstein Scoring Model Merging (GW-SMM)法を提案する。
グロモフ=ワッサーシュタイン距離で測定された特徴分布の類似性に基づいてモデルをマージする。
我々は,人間の知識に対するアプローチとGPT-o1をベースとしたマージ手法の検証を行った。
- 参考スコア(独自算出の注目度): 7.436562917907035
- License:
- Abstract: Automatic scoring of student responses enhances efficiency in education, but deploying a separate neural network for each task increases storage demands, maintenance efforts, and redundant computations. To address these challenges, this paper introduces the Gromov-Wasserstein Scoring Model Merging (GW-SMM) method, which merges models based on feature distribution similarities measured via the Gromov-Wasserstein distance. Our approach begins by extracting features from student responses using individual models, capturing both item-specific context and unique learned representations. The Gromov-Wasserstein distance then quantifies the similarity between these feature distributions, identifying the most compatible models for merging. Models exhibiting the smallest pairwise distances, typically in pairs or trios, are merged by combining only the shared layers preceding the classification head. This strategy results in a unified feature extractor while preserving separate classification heads for item-specific scoring. We validated our approach against human expert knowledge and a GPT-o1-based merging method. GW-SMM consistently outperformed both, achieving a higher micro F1 score, macro F1 score, exact match accuracy, and per-label accuracy. The improvements in micro F1 and per-label accuracy were statistically significant compared to GPT-o1-based merging (p=0.04, p=0.01). Additionally, GW-SMM reduced storage requirements by half without compromising much accuracy, demonstrating its computational efficiency alongside reliable scoring performance.
- Abstract(参考訳): 学生反応の自動スコアリングは、教育の効率を高めるが、各タスクに別々のニューラルネットワークを配置することで、ストレージの要求、メンテナンスの努力、冗長な計算が増大する。
これらの課題に対処するために,Gromov-Wasserstein Scoring Model Merging (GW-SMM)法を提案する。
我々のアプローチは、個々のモデルを用いて学生の反応から特徴を抽出することから始まり、アイテム固有のコンテキストとユニークな学習表現の両方をキャプチャする。
グロモフ=ワッサーシュタイン距離は、これらの特徴分布間の類似性を定量化し、マージの最も互換性のあるモデルを特定する。
最小のペア距離を示すモデル(典型的にはペアまたはトリオ)は、分類ヘッドに先行する共有層のみを組み合わせることでマージされる。
この戦略により、アイテム固有のスコアリングのための個別の分類ヘッドを保持しながら、統一された特徴抽出器が得られる。
我々は,人間の知識に対するアプローチとGPT-o1をベースとしたマージ手法の検証を行った。
GW-SMMは、マイクロF1スコア、マクロF1スコア、正確な一致精度、ラベル毎の精度で、両者を一貫して上回りました。
マイクロF1とラベル毎の精度の改善は、GPT-o1ベースのマージ (p=0.04, p=0.01) と比較して統計的に有意であった。
さらに、GW-SMMは、高い精度を犠牲にすることなく、ストレージ要求を半分に減らし、信頼性の高いスコアリング性能とともに計算効率を実証した。
関連論文リスト
- Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis [17.989809995141044]
相関解析に基づくCCAマージを提案する。
2モデル以上のモデルがマージされた場合、CCAは過去の方法よりもはるかにうまく機能することを示す。
論文 参考訳(メタデータ) (2024-07-07T14:21:04Z) - ML-based identification of the interface regions for coupling local and nonlocal models [0.0]
局所非局所カップリングアプローチは、局所モデルの計算効率と非局所モデルの精度を組み合わせる。
本研究では,局所モデルと非局所モデルを用いるべき領域を自動的に検出する機械学習アプローチを提案する。
論文 参考訳(メタデータ) (2024-04-23T14:19:36Z) - DiTMoS: Delving into Diverse Tiny-Model Selection on Microcontrollers [34.282971510732736]
我々は、セレクタ分類器アーキテクチャを備えた新しいDNNトレーニングおよび推論フレームワークであるDiTMoSを紹介する。
弱いモデルの合成は高い多様性を示すことができ、それらの結合は精度の上限を大幅に高めることができる。
我々は,Nucleo STM32F767ZIボード上にDiTMoSをデプロイし,人間の活動認識,キーワードスポッティング,感情認識のための時系列データセットに基づいて評価する。
論文 参考訳(メタデータ) (2024-03-14T02:11:38Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Cramer Type Distances for Learning Gaussian Mixture Models by Gradient
Descent [0.0]
今日まで、ガウス混合モデルに適合または学習できる既知のアルゴリズムはほとんどない。
一般多変量GMM学習のためのスライスクラマー2距離関数を提案する。
これらの機能は、分散強化学習とディープQネットワークに特に有用である。
論文 参考訳(メタデータ) (2023-07-13T13:43:02Z) - Overlap-guided Gaussian Mixture Models for Point Cloud Registration [61.250516170418784]
確率的3Dポイントクラウド登録法は、ノイズ、アウトレーヤ、密度変動を克服する競合性能を示した。
本稿では,一致したガウス混合モデル(GMM)パラメータから最適変換を演算する,重複誘導確率登録手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:02:33Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - DeepGMR: Learning Latent Gaussian Mixture Models for Registration [113.74060941036664]
ポイントクラウドの登録は、3Dコンピュータビジョン、グラフィックス、ロボット工学の基本的な問題である。
本稿では,最初の学習ベース登録法であるDeep Gaussian Mixture Registration(DeepGMR)を紹介する。
提案手法は,最先端の幾何学的および学習的登録手法と比較して,良好な性能を示す。
論文 参考訳(メタデータ) (2020-08-20T17:25:16Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。