論文の概要: Shared DIFF Transformer
- arxiv url: http://arxiv.org/abs/2501.17900v1
- Date: Wed, 29 Jan 2025 09:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:14:40.342459
- Title: Shared DIFF Transformer
- Title(参考訳): 共有DIFF変換器
- Authors: Yueyang Cang, Yuhang Liu, Xiaoteng Zhang, Xiangju Wang,
- Abstract要約: DIFF変換器は、ノイズを抑えながら、関連するコンテキストに焦点をあてることにより、アテンションアロケーションを改善する。
本稿では,大域的パターンをモデル化するための共有基底行列を導入することにより,差動増幅器のアイデアに基づく共有DIFF変換器を提案する。
この設計はパラメータの冗長性を著しく低減し、効率を向上し、強いノイズ抑制機能を保持する。
- 参考スコア(独自算出の注目度): 4.289692335378565
- License:
- Abstract: DIFF Transformer improves attention allocation by enhancing focus on relevant context while suppressing noise. It introduces a differential attention mechanism that calculates the difference between two independently generated attention distributions, effectively reducing noise and promoting sparse attention patterns. However, the independent signal generation in DIFF Transformer results in parameter redundancy and suboptimal utilization of information. In this work, we propose Shared DIFF Transformer, which draws on the idea of a differential amplifier by introducing a shared base matrix to model global patterns and incorporating low-rank updates to enhance task-specific flexibility. This design significantly reduces parameter redundancy, improves efficiency, and retains strong noise suppression capabilities. Experimental results show that, compared to DIFF Transformer, our method achieves better performance in tasks such as long-sequence modeling, key information retrieval, and in-context learning. Our work provides a novel and efficient approach to optimizing differential attention mechanisms and advancing robust Transformer architectures.
- Abstract(参考訳): DIFF変換器は、ノイズを抑えながら、関連するコンテキストに焦点をあてることにより、アテンションアロケーションを改善する。
独立に生成された2つの注意分布の違いを計算し、ノイズを効果的に低減し、スパースアテンションパターンを促進する差分アテンション機構を導入する。
しかし、DIFF変換器の独立信号生成はパラメータ冗長性と情報の最適部分利用をもたらす。
本研究では,グローバルなパターンをモデル化するための共有ベース行列を導入し,タスク固有の柔軟性を高めるために低ランク更新を導入することで,差分増幅器の考え方を取り入れた共有DIFF変換器を提案する。
この設計はパラメータの冗長性を著しく低減し、効率を向上し、強いノイズ抑制機能を保持する。
提案手法は,DIFFトランスフォーマーと比較して,長周期モデリング,キー情報検索,コンテキスト内学習などのタスクにおいて,より優れた性能を実現する。
我々の研究は、微分アテンション機構を最適化し、堅牢なトランスフォーマーアーキテクチャを進化させるための、新しく効率的なアプローチを提供する。
関連論文リスト
- Scaled and Inter-token Relation Enhanced Transformer for Sample-restricted Residential NILM [0.0]
本稿では,2つの革新点を持つトランスフォーマーアーキテクチャを提案する。
提案手法をREDDデータセット上で検証し, 各種アプライアンスに対してF1スコアを10~15%向上させる結果を得た。
論文 参考訳(メタデータ) (2024-10-12T18:58:45Z) - Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Exploring Frequency-Inspired Optimization in Transformer for Efficient Single Image Super-Resolution [32.29219284419944]
クロスリファインメント適応型特徴変調トランス(CRAFT)
CRAFTの効率向上を目的とした周波数誘導後量子化(PTQ)手法を提案する。
以上の結果より, CRAFTは現状の方法よりも優れていることが示唆された。
論文 参考訳(メタデータ) (2023-08-09T15:38:36Z) - Over-the-Air Federated Multi-Task Learning via Model Sparsification and
Turbo Compressed Sensing [48.19771515107681]
本稿では,エッジサーバの協調の下で,エッジデバイス上にデプロイされた複数の学習タスクを非直交型フェードチャネルで共有する,オーバー・ザ・エアのFMTLフレームワークを提案する。
OA-FMTLでは、エッジデバイスの局所的な更新はスパース化され、圧縮され、重ね合わせの方法でアップリンクチャネルに送信される。
提案するOA-FMTLフレームワークとM-Turbo-CSアルゴリズムの性能解析を行った。
論文 参考訳(メタデータ) (2022-05-08T08:03:52Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。