論文の概要: Critical Patch-Aware Sparse Prompting with Decoupled Training for Continual Learning on the Edge
- arxiv url: http://arxiv.org/abs/2604.07399v1
- Date: Wed, 08 Apr 2026 09:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.448586
- Title: Critical Patch-Aware Sparse Prompting with Decoupled Training for Continual Learning on the Edge
- Title(参考訳): エッジ上での連続学習のための分離学習による臨界パッチ対応スパースプロンプト
- Authors: Wonseon Lim, Jaesung Lee, Dae-Won Kim,
- Abstract要約: エッジデバイス上での継続的な学習は、デバイス上の適応をサポートするために高い精度と訓練時間の効率を必要とする。
本稿では,CPS-Promptを提案する。CPS-Promptは,トレーニング時のメモリ使用量と計算コストを明示的にターゲットとした,パッチ対応スパースプロンプトフレームワークである。
実験により、CPS-Promptはピークメモリ、トレーニング時間、エネルギー効率をCODA-Promptベースラインの約1.6倍改善することが示された。
- 参考スコア(独自算出の注目度): 6.483776204899318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning (CL) on edge devices requires not only high accuracy but also training-time efficiency to support on-device adaptation under strict memory and computational constraints. While prompt-based continual learning (PCL) is parameter-efficient and achieves competitive accuracy, prior work has focused mainly on accuracy or inference-time performance, often overlooking the memory and computational costs of on-device training. In this paper, we propose CPS-Prompt, a critical patch-aware sparse prompting framework that explicitly targets training-time memory usage and computational cost by integrating critical patch sampling (CPS) for task-aware token reduction and decoupled prompt and classifier training (DPCT) to reduce backpropagation overhead. Experiments on three public benchmarks and real edge hardware show that CPS-Prompt improves peak memory, training time, and energy efficiency by about 1.6x over the balanced CODA-Prompt baseline, while maintaining accuracy within 2% of the state-of-the-art C-Prompt on average and remaining competitive with CODA-Prompt in accuracy. The code is available at https://github.com/laymond1/cps-prompt.
- Abstract(参考訳): エッジデバイス上での連続学習(CL)は、高い精度だけでなく、厳密なメモリと計算制約の下でデバイス上の適応をサポートするための訓練時間の効率も要求する。
プロンプトベース連続学習(PCL)はパラメータ効率が高く、競争精度が向上するが、先行研究は主に正確性や推論時間の性能に重点を置いており、デバイス上でのトレーニングのメモリと計算コストを見落としていることが多い。
本稿では,CPS-Promptを提案する。CPS-Promptは,タスク認識トークンの削減のためのクリティカルパッチサンプリング(CPS)と,バックプロパゲーションオーバーヘッドを低減するための非結合プロンプトとクラシファイアトレーニング(DPCT)を統合することで,トレーニング時メモリ使用量と計算コストを明示的に目標とする,クリティカルパッチ対応スパースプロンプトフレームワークである。
3つの公開ベンチマークと実エッジハードウェアの実験によると、CPS-Promptはバランスの取れたCODA-Promptベースラインよりもピークメモリ、トレーニング時間、エネルギー効率を約1.6倍改善し、平均して最先端のC-Promptの2%以内の精度を維持し、精度はCODA-Promptと競合する。
コードはhttps://github.com/laymond1/cps-prompt.comで公開されている。
関連論文リスト
- Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - FLOP-Efficient Training: Early Stopping Based on Test-Time Compute Awareness [5.2612663135589175]
FLOPで測定されたトレーニング計算のスケーリングは、大規模な言語モデルの精度を向上させるために長年にわたって行われてきた。
我々は、中間チェックポイントとそれに対応するTTC構成が、完全に訓練されたモデルの正確さに一致または超えるようなTTC対応トレーニングを導入する。
この知見に基づいて,チェックポイントとTTC構成を共同で選択し,精度を犠牲にすることなくトレーニング計算を最小化する早期停止アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-04T02:33:30Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Efficient Long-context Language Model Training by Core Attention Disaggregation [40.14172357304901]
本稿では,コアアテンション計算,ソフトマックス(QKT)Vをモデルの他の部分から分離することにより,長文大言語モデルの訓練を改善する手法を提案する。
本研究では,DistCAと呼ばれるシステムにCADを実装し,Ping-pong実行方式を用いて,計算処理と通信を重複させ,アテンションサーバ上でのインプレース実行によりメモリ使用量の削減を図る。
論文 参考訳(メタデータ) (2025-10-20T21:40:51Z) - Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。
textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。
SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文 参考訳(メタデータ) (2025-05-22T14:11:34Z) - DPQ-HD: Post-Training Compression for Ultra-Low Power Hyperdimensional Computing [6.378578005171813]
ポストトレーニング圧縮アルゴリズムDPQ-HD(Decomposition-Pruning-Quantization)を提案する。
DPQ-HDは上記の3つの圧縮技法を一意に組み合わせることで計算とメモリのオーバーヘッドを低減する。
DPQ-HDは1-2%の精度で画像およびグラフ分類タスクの最大20-100倍のメモリ削減を実現している。
論文 参考訳(メタデータ) (2025-05-08T16:54:48Z) - Failure Tolerant Training with Persistent Memory Disaggregation over CXL [7.700500756012469]
本稿では,分散メモリのプール内で大規模レコメンデーションデータセットを効率的に処理できるTRAININGCXLを提案する。
この目的のために、永続メモリ(PMEM)とGPUをキャッシュコヒーレントなドメインにType-2として統合する。
評価の結果,TRAININGCXLはPMEMベースの推薦システムと比較して5.2倍のトレーニング性能向上と76%の省エネを実現していることがわかった。
論文 参考訳(メタデータ) (2023-01-14T05:59:07Z) - DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。
そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。
実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文 参考訳(メタデータ) (2022-08-05T03:15:28Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。