論文の概要: Fovea Transformer: Efficient Long-Context Modeling with Structured
Fine-to-Coarse Attention
- arxiv url: http://arxiv.org/abs/2311.07102v2
- Date: Thu, 11 Jan 2024 14:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 03:06:43.820843
- Title: Fovea Transformer: Efficient Long-Context Modeling with Structured
Fine-to-Coarse Attention
- Title(参考訳): fovea transformer: 構造化された細心の注意を伴う効率的なロングコンテキストモデリング
- Authors: Ziwei He, Jian Yuan, Le Zhou, Jingwen Leng, Bo Jiang
- Abstract要約: 長文集中型変換器であるFovea Transformerを紹介する。
問合せトークンへの距離が増加するにつれて、木に徐々に粗い粒度を持つコンテキストトークンの表現を使用する。
3つの長文要約タスクにおいて,本モデルを評価する。
- 参考スコア(独自算出の注目度): 17.48544285026157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic complexity of self-attention in Transformers has hindered the
processing of long text. To alleviate this problem, previous works have
proposed to sparsify the attention matrix, taking advantage of the observation
that crucial information about a token can be derived from its neighbors. These
methods typically combine one or another form of local attention and global
attention. Such combinations introduce abrupt changes in contextual granularity
when going from local to global, which may be undesirable. We believe that a
smoother transition could potentially enhance model's ability to capture
long-context dependencies. In this study, we introduce Fovea Transformer, a
long-context focused transformer that addresses the challenges of capturing
global dependencies while maintaining computational efficiency. To achieve
this, we construct a multi-scale tree from the input sequence, and use
representations of context tokens with a progressively coarser granularity in
the tree, as their distance to the query token increases. We evaluate our model
on three long-context summarization tasks\footnote{Our code is publicly
available at: \textit{https://github.com/ZiweiHe/Fovea-Transformer}}. It
achieves state-of-the-art performance on two of them, and competitive results
on the third with mixed improvement and setback of the evaluation metrics.
- Abstract(参考訳): トランスフォーマーにおける自己注意の二次的な複雑さは、長いテキストの処理を妨げる。
この問題を緩和するために、トークンに関する重要な情報が隣人から引き出すことができるという観察を生かして、注意行列をスパース化する以前の研究が提案されている。
これらの方法は通常、地域的注意とグローバルな注意の1つまたは別の形態を組み合わせる。
このような組み合わせは、局所からグローバルへ移動する際の文脈的粒度の急激な変化をもたらすが、これは望ましくない。
よりスムーズな移行は、長いコンテキスト依存をキャプチャするモデルの能力を高める可能性があると考えています。
本研究では,計算効率を保ちながらグローバル依存を捉えることの課題を解決する,長期文脈に焦点を絞ったトランスフォーマであるfovea transformerを提案する。
これを実現するために、入力シーケンスから多スケールツリーを構築し、クエリトークンとの距離が大きくなるにつれて、ツリー内の粒度が徐々に粗いコンテキストトークンの表現を使用する。
長文要約タスク\footnote{Our code is public available at: \textit{https://github.com/ZiweiHe/Fovea-Transformer}}。
そのうちの2つで最先端のパフォーマンスを達成し、3つ目では、評価指標の混合改善とセットバックによる競争結果を得る。
関連論文リスト
- Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing [19.73918716354272]
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
ModelNet40、ShapeNet、航空機搭載MultiSpectral LiDAR(MS-LiDAR)データセット上の前点変換器よりも最大30$times$高速でSOTAパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for
Long Sequences [16.066338004414092]
textitDiffuserはシーケンシャル・ツー・シーケンス・モデリングのための新しい効率的なトランスフォーマーである。
低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。
スペクトルの観点からグラフ展開特性を解析することにより、全アテンションを近似する能力を示す。
論文 参考訳(メタデータ) (2022-10-21T08:13:34Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - A Context-Aware Feature Fusion Framework for Punctuation Restoration [28.38472792385083]
注意力不足を軽減するために,2種類の注意力(FFA)に基づく新しい特徴融合フレームワークを提案する。
一般的なベンチマークデータセットであるIWSLTの実験は、我々のアプローチが効果的であることを示す。
論文 参考訳(メタデータ) (2022-03-23T15:29:28Z) - Fastformer: Additive Attention Can Be All You Need [51.79399904527525]
本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。
Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。
このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
論文 参考訳(メタデータ) (2021-08-20T09:44:44Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。