論文の概要: Fragile Mastery: Are Domain-Specific Trade-Offs Undermining On-Device Language Models?
- arxiv url: http://arxiv.org/abs/2503.22698v1
- Date: Sun, 16 Mar 2025 18:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-06 07:30:20.014858
- Title: Fragile Mastery: Are Domain-Specific Trade-Offs Undermining On-Device Language Models?
- Title(参考訳): 脆弱な熟達: ドメイン特有なトレードオフはオンデバイス言語モデルを損なうか?
- Authors: Basab Jha, Firoj Paudel,
- Abstract要約: Generalized Edge Model (GEM) は、堅牢性と一般化を調和的にバランスさせることを目的としている。
GEMはSparse Cross-Attention Router (SCAR) を使用して、可変数のコンピューティングリソースに動的に割り当てる。
GPT-4 Liteと比較して、GEMはドメイン固有のパフォーマンスの尊重と同等性に対して、一般タスクレベルを7%向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The application of on-device language models (ODLMs) on resource-constrained edge devices is a multi-dimensional problem that strikes a fine balance between computational effectiveness, memory, power usage, and linguistic capacity across heterogeneous tasks. This holistic study conducts a thorough investigation of the trade-offs between domain-specific optimization and cross-domain robustness, culminating in the proposal of the Generalized Edge Model (GEM), a new architecture that aims to balance specialization and generalization in a harmonious manner. With a rigorous experimental approach testing 47 well-chosen benchmarks in eight domains--healthcare, law, finance, STEM, commonsense, conversational AI, multilingual, and domain-adaptive tasks--we show that conventional optimization techniques decrease target task perplexity by 18-25% but result in a precipitous decline in general-task performance with F1 scores decreasing by 12-29%, as reported by Liu et al. GEM employs a Sparse Cross-Attention Router (SCAR) to dynamically allocate computation to a variable number of computing resources with a cross-domain F1 accuracy of 0.89 on less than 100ms latency across Raspberry Pi 4, Pixel 6, iPhone 13, and bespoke custom neural processing units (NPUs). Compared to GPT-4 Lite, GEM enhances the general-task level by 7% with respect and parity in domain-specific performance. We propose three new measurement tools--Domain Specialization Index (DSI), Generalization Gap (GG), and Cross-Domain Transfer Ratio (CDTR)--which show strong correlation between model compression intensity and brittleness.
- Abstract(参考訳): リソース制約エッジデバイスへのオンデバイス言語モデル(ODLM)の適用は、計算効率、メモリ、電力使用量、異種タスク間の言語能力の微妙なバランスをとる多次元問題である。
この総合的研究は、ドメイン固有の最適化とドメイン間の堅牢性の間のトレードオフを徹底的に調査し、調和した方法で特殊化と一般化のバランスをとることを目的とした新しいアーキテクチャであるGeneralized Edge Model (GEM)の提案を導いた。
健康、法律、財務、STEM、コモンセンス、会話AI、多言語、ドメイン適応タスクといった8つのドメインで47のウェルチョーゼンベンチマークをテストする厳密な実験的アプローチにより、従来の最適化手法によってターゲットタスクの難易度が18~25%減少するが、Liu氏らによる報告によると、F1スコアが12~29%減少する一般タスクのパフォーマンスが急激に低下する結果、Liu氏らによるSCAR(Sparse Cross-Attention Router)は、Raspberry Pi 4、Pixel 6, iPhone 13、カスタムスポークニューラルネットワークユニット(NPU)をまたいだ100ms以下のレイテンシで、さまざまな演算リソースに動的に計算を割り当てるために、Sparse Cross-Attention Router(SCAR)を使用している。
GPT-4 Liteと比較して、GEMはドメイン固有のパフォーマンスの尊重と同等性に対して、一般タスクレベルを7%向上させる。
本稿では,モデル圧縮強度と脆度との間に強い相関関係を示す,DSI(Domain Specialization Index),GG(Generalization Gap),CDTR(Cross-Domain Transfer Ratio)の3つの新しい測定ツールを提案する。
関連論文リスト
- Inference Scaling vs Reasoning: An Empirical Analysis of Compute-Optimal LLM Problem-Solving [0.0]
大規模言語モデル(LLM)の最近の進歩は、精度と推論能力の最大化に重点を置いている。
本稿では,2つの対照的なアプローチの統合を解析することにより,推論の強化と計算効率の相乗効果について検討する。
論文 参考訳(メタデータ) (2024-12-20T08:42:45Z) - SoMA: Singular Value Decomposed Minor Components Adaptation for Domain Generalizable Representation Learning [6.262268096839562]
ドメインの一般化は、1つまたは複数のソースドメインを使用してモデルを適応し、目に見えないターゲットドメインで堅牢なパフォーマンスを保証することを目的としています。
既存のPEFT手法は、事前訓練されたモデルの一般化可能なコンポーネントと学習タスク固有の特徴のバランスをとるのに苦労する。
Singular Value De Minor Components Adaptation (SoMA) を導入する。
論文 参考訳(メタデータ) (2024-12-05T11:17:57Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator [4.09225917049674]
Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化した。
本稿では多目的拡散プロセスを通じて拡散NAGを拡張するPOMONAGを紹介する。
結果は、NAS201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。
論文 参考訳(メタデータ) (2024-09-30T16:05:29Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection [16.062265609569003]
Mixture-of-Experts (MoE)アーキテクチャは、大規模言語モデル(LLM)のパラダイムシフトアプローチとして登場した。
本稿では,(1)軽量計算を用いた効率的なルーティング機構,(2)エキスパートとトークンの共振を利用した適応的双方向選択機構,(3)動的トークン分布解析に基づくエキスパートキャパシティの下位境界を決定するモジュールを提案する。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation [86.02485817444216]
マルチプロンプトアライメント(MPA: Multi-Prompt Alignment)は,マルチソースUDAのためのシンプルかつ効率的なフレームワークである。
MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構築されたプロンプトの合意を最大化することでそれらを調整する。
実験によると、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
論文 参考訳(メタデータ) (2022-09-30T03:40:10Z) - Federated Learning for Energy-limited Wireless Networks: A Partial Model
Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックである
まず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。
提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文 参考訳(メタデータ) (2022-04-20T19:09:52Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。