論文の概要: DINT Transformer
- arxiv url: http://arxiv.org/abs/2501.17486v1
- Date: Wed, 29 Jan 2025 08:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:55:01.593656
- Title: DINT Transformer
- Title(参考訳): DINT変換器
- Authors: Yueyang Cang, Yuhang Liu, Xiaoteng Zhang, Erlu Zhao, Li Shi,
- Abstract要約: DIFF変換器は、微分アテンション機構を導入することにより、無関係なコンテキスト干渉の問題に対処する。
差動積分機構を組み込んでDIFF変換器を拡張するDINT変換器を提案する。
- 参考スコア(独自算出の注目度): 5.990713912057883
- License:
- Abstract: DIFF Transformer addresses the issue of irrelevant context interference by introducing a differential attention mechanism that enhances the robustness of local attention. However, it has two critical limitations: the lack of global context modeling, which is essential for identifying globally significant tokens, and numerical instability due to the absence of strict row normalization in the attention matrix. To overcome these challenges, we propose DINT Transformer, which extends DIFF Transformer by incorporating a differential-integral mechanism. By computing global importance scores and integrating them into the attention matrix, DINT Transformer improves its ability to capture global dependencies. Moreover, the unified parameter design enforces row-normalized attention matrices, improving numerical stability. Experimental results demonstrate that DINT Transformer excels in accuracy and robustness across various practical applications, such as long-context language modeling and key information retrieval. These results position DINT Transformer as a highly effective and promising architecture.
- Abstract(参考訳): DIFF変換器は、局所的な注意の堅牢性を高める差分注意機構を導入することにより、無関係なコンテキスト干渉の問題に対処する。
しかし、グローバルコンテキストモデリングの欠如は、グローバルな重要なトークンを特定するのに不可欠であり、注意行列における厳密な行正規化の欠如による数値不安定性である。
これらの課題を克服するために,差動積分機構を導入してDIFF変換器を拡張するDINT変換器を提案する。
グローバルな重要度スコアを計算し、アテンションマトリックスに統合することにより、DINT Transformerはグローバルな依存関係をキャプチャする能力を向上させる。
さらに、統一パラメータ設計では行正規化の注意行列が適用され、数値安定性が向上する。
実験により,DINTトランスフォーマーは,長文言語モデリングやキー情報検索など,様々な実践的応用において,精度と堅牢性に優れることが示された。
これらの結果は、DINT Transformerを非常に効果的で有望なアーキテクチャとして位置づけている。
関連論文リスト
- Mixture of Attention Yields Accurate Results for Tabular Data [21.410818837489973]
本稿では,エンコーダ・デコーダ・トランスを用いたMAYAを提案する。
エンコーダでは、複数の並列注意枝を構成するMOA(Mixture of Attention)を設計する。
我々は、より堅牢な表現を生成するために、動的一貫性重み制約を伴う協調学習を採用する。
論文 参考訳(メタデータ) (2025-02-18T03:43:42Z) - Shared DIFF Transformer [4.289692335378565]
DIFF変換器は、ノイズを抑えながら、関連するコンテキストに焦点をあてることにより、アテンションアロケーションを改善する。
本稿では,大域的パターンをモデル化するための共有基底行列を導入することにより,差動増幅器のアイデアに基づく共有DIFF変換器を提案する。
この設計はパラメータの冗長性を著しく低減し、効率を向上し、強いノイズ抑制機能を保持する。
論文 参考訳(メタデータ) (2025-01-29T09:29:07Z) - Scaled and Inter-token Relation Enhanced Transformer for Sample-restricted Residential NILM [0.0]
本稿では,2つの革新点を持つトランスフォーマーアーキテクチャを提案する。
提案手法をREDDデータセット上で検証し, 各種アプライアンスに対してF1スコアを10~15%向上させる結果を得た。
論文 参考訳(メタデータ) (2024-10-12T18:58:45Z) - Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Correlated Attention in Transformers for Multivariate Time Series [22.542109523780333]
本稿では,特徴量依存を効率的に捕捉し,既存のトランスフォーマーのエンコーダブロックにシームレスに統合できる新しいアテンション機構を提案する。
特に、関連性のある注意は、特徴チャネルを横断して、クエリとキー間の相互共分散行列をラグ値で計算し、サブシリーズレベルで選択的に表現を集約する。
このアーキテクチャは、瞬時だけでなく、ラタグされた相互相関の発見と表現の学習を容易にすると同時に、本質的に時系列の自動相関をキャプチャする。
論文 参考訳(メタデータ) (2023-11-20T17:35:44Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Robustness Verification for Transformers [165.25112192811764]
我々はトランスフォーマーのための最初のロバスト性検証アルゴリズムを開発した。
提案手法で計算したロバスト性境界は, 素粒子間境界伝播法で計算したロバスト性境界よりもかなり厳密である。
これらの境界はまた、感情分析における異なる単語の重要性を常に反映しているトランスフォーマーの解釈にも光を当てている。
論文 参考訳(メタデータ) (2020-02-16T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。