論文の概要: Value Residual Learning
- arxiv url: http://arxiv.org/abs/2410.17897v4
- Date: Wed, 19 Feb 2025 17:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 15:43:05.611066
- Title: Value Residual Learning
- Title(参考訳): 価値の残留学習
- Authors: Zhanchao Zhou, Tianyi Wu, Zhiyun Jiang, Fares Obeid, Zhenzhong Lan,
- Abstract要約: 本稿では,ResFormerについて紹介する。ResFormerは値残差接続を組み込むことで情報フローを向上させるアーキテクチャである。
モデルパラメータが13.3%減少し、Transformerに比べてトレーニングデータが15.4%減少している。
- 参考スコア(独自算出の注目度): 13.88704205151734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Transformer models have achieved remarkable success in various domains, the effectiveness of information propagation through deep networks remains a critical challenge. Standard hidden state residuals often fail to adequately preserve initial token-level information in deeper layers. This paper introduces ResFormer, a novel architecture that enhances information flow by incorporating value residual connections in addition to hidden state residuals. And a variant is the SVFormer, where all layers share the first layer's value embedding. Comprehensive empirical evidence demonstrates ResFormer achieves equivalent validation loss with 13.3\% fewer model parameters and 15.4\% less training data compared to Transformer, while maintaining similar memory usage and computational cost. Besides, SVFormer reduces KV cache size by nearly half with only a small performance penalty and can be integrated with other KV-efficient methods, yielding further reductions in KV cache, with performance influenced by sequence length and cumulative learning rate.
- Abstract(参考訳): トランスフォーマーモデルは様々な領域で顕著な成功を収めてきたが、ディープネットワークによる情報伝達の有効性は依然として重要な課題である。
標準的な隠れ状態残基は、より深い層で初期トークンレベルの情報を適切に保存できないことが多い。
本稿では,隠れ状態の残差に加えて,値残差接続を組み込むことで情報フローを向上させる新しいアーキテクチャであるResFormerを紹介する。
SVFormerでは、すべてのレイヤが最初のレイヤの値を埋め込むことができます。
総合的な実証的な証拠は、ResFormerが同等の検証損失を13.3倍のモデルパラメータと15.4倍のトレーニングデータで達成していることを示している。
さらに、SVFormerは、KVキャッシュサイズを小さなパフォーマンスペナルティで半分近く削減し、他のKV効率の手法と統合でき、シーケンス長と累積学習率の影響を受けながら、KVキャッシュをさらに削減することができる。
関連論文リスト
- SURGEON: Memory-Adaptive Fully Test-Time Adaptation via Dynamic Activation Sparsity [30.260783715373382]
テスト時間適応(TTA)は、未ラベルのターゲットデータにオンラインで適応することで、ディープモデルの性能を向上させるために出現している。
しかし、特にリソース制約のある端末におけるメモリコストは、ほとんどの後方プロパゲーションベースのTTAメソッドの効果的な展開を妨げる。
メモリの制約に対処するため,SURGEONを導入する。
論文 参考訳(メタデータ) (2025-03-26T09:27:09Z) - AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [84.60646883395454]
Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。
既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。
適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:34:37Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - What Matters in Transformers? Not All Attention is Needed [7.857824255138334]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々なタスクで有望なパフォーマンスを示している。
また、冗長なアーキテクチャを導入し、現実世界のデプロイメントに効率上の課題を提起する。
我々は、類似度に基づくメトリクスを用いて、ブロック、アテンション層を含むトランスフォーマー内の異なるモジュール間の冗長性を調べる。
論文 参考訳(メタデータ) (2024-06-22T08:41:48Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - CR-SAM: Curvature Regularized Sharpness-Aware Minimization [8.248964912483912]
Sharpness-Aware Minimization (SAM) は,1段階の勾配上昇を近似として,最悪のケース損失を最小限に抑え,一般化性を高めることを目的としている。
本稿では,トレーニングとテストセットの両面における損失景観の曲率を正確に測定する正規化ヘッセントレースを提案する。
特に、損失景観の過度な非線形性に対抗するために、曲率正規化SAM(CR-SAM)を提案する。
論文 参考訳(メタデータ) (2023-12-21T03:46:29Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - EcoTTA: Memory-Efficient Continual Test-time Adaptation via
Self-distilled Regularization [71.70414291057332]
TTAは主にメモリ制限のあるエッジデバイス上で実行される。
長期的な適応は、しばしば破滅的な忘れとエラーの蓄積につながる。
本稿では,凍結したオリジナルネットワークを対象ドメインに適応させる軽量なメタネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:30Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。
そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。
実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文 参考訳(メタデータ) (2022-08-05T03:15:28Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Impact of Channel Variation on One-Class Learning for Spoof Detection [5.549602650463701]
スポット検出はASVシステムの信頼性を高めるが、チャネルの変動により著しく低下する。
MCTに最適なデータ供給戦略は何か?スプーフ検出では分かっていない。
本研究は、データ供給とミニバッチの低重要度プロセスが、より良いパフォーマンスのために改善する必要性の認識を高めることの関連性を強調した。
論文 参考訳(メタデータ) (2021-09-30T07:56:16Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Layer Pruning via Fusible Residual Convolutional Block for Deep Neural
Networks [15.64167076052513]
レイヤプルーニングは、同じFLOPとパラメータの数でプルーニングされる場合、推論時間と実行時のメモリ使用量が少なくなる。
残差畳み込みブロック(ResConv)を用いた簡単な層切断法を提案する。
本手法は, 異なるデータセット上での最先端技術に対する圧縮と加速の優れた性能を実現する。
論文 参考訳(メタデータ) (2020-11-29T12:51:16Z) - DeFormer: Decomposing Pre-trained Transformers for Faster Question
Answering [22.178201429268103]
トランスフォーマーベースのQAモデルは、質問と入力通路の両方にわたる入力ワイド自己アテンションを使用する。
DeFormerを導入し、下層層における全自己注意を質問全体および横断的自己注意に置き換える。
BERTとXLNetのDeFormerバージョンは、QAを4.3倍高速化するために使用でき、単純な蒸留に基づく損失は1%の精度でしか得られない。
論文 参考訳(メタデータ) (2020-05-02T04:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。