論文の概要: Tree Cross Attention
- arxiv url: http://arxiv.org/abs/2309.17388v2
- Date: Fri, 1 Mar 2024 05:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 14:23:03.512647
- Title: Tree Cross Attention
- Title(参考訳): ツリークロスの注意
- Authors: Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Yoshua Bengio,
Mohamed Osama Ahmed
- Abstract要約: Tree Cross Attention (TCA) は、Cross Attentionに基づくモジュールで、パラメータ $mathcalO(log(N))$ のトークン数からのみ情報を取得する。
さまざまな分類や不確実性回帰タスクに対して,TCAはクロスアテンションに匹敵する性能を示し,トークン効率は著しく向上した。
- 参考スコア(独自算出の注目度): 59.8891512435847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross Attention is a popular method for retrieving information from a set of
context tokens for making predictions. At inference time, for each prediction,
Cross Attention scans the full set of $\mathcal{O}(N)$ tokens. In practice,
however, often only a small subset of tokens are required for good performance.
Methods such as Perceiver IO are cheap at inference as they distill the
information to a smaller-sized set of latent tokens $L < N$ on which cross
attention is then applied, resulting in only $\mathcal{O}(L)$ complexity.
However, in practice, as the number of input tokens and the amount of
information to distill increases, the number of latent tokens needed also
increases significantly. In this work, we propose Tree Cross Attention (TCA) -
a module based on Cross Attention that only retrieves information from a
logarithmic $\mathcal{O}(\log(N))$ number of tokens for performing inference.
TCA organizes the data in a tree structure and performs a tree search at
inference time to retrieve the relevant tokens for prediction. Leveraging TCA,
we introduce ReTreever, a flexible architecture for token-efficient inference.
We show empirically that Tree Cross Attention (TCA) performs comparable to
Cross Attention across various classification and uncertainty regression tasks
while being significantly more token-efficient. Furthermore, we compare
ReTreever against Perceiver IO, showing significant gains while using the same
number of tokens for inference.
- Abstract(参考訳): クロス注意(Cross Attention)は、予測を行うためのコンテキストトークンの集合から情報を取得する一般的な方法である。
予測時間毎に、Cross Attentionは$\mathcal{O}(N)$トークンの完全なセットをスキャンする。
しかし実際には、良いパフォーマンスのためにはトークンの小さなサブセットしか必要とされないことが多い。
Perceiver IO のような手法は、より小さな潜在トークンの集合に情報を蒸留し、その上にクロスアテンションを適用し、その結果、$\mathcal{O}(L)$複雑さが生じるため、推論時に安価である。
しかし、実際には、入力トークンの数や蒸留する情報量が増加するにつれて、必要となる潜在トークンの数も大幅に増加する。
本研究では,対数的$\mathcal{o}(\log(n))$のトークンからのみ情報を取得するクロスアテンションに基づくツリークロスアテンション(tca)モジュールを提案する。
TCAは、データをツリー構造に整理し、推論時にツリー検索を行い、関連するトークンを検索して予測する。
TCAを活用して、トークン効率のよい推論のための柔軟なアーキテクチャであるReTreeverを紹介します。
木間交差注意(TCA)は様々な分類・不確実性回帰タスクにおいてクロス注意に匹敵する性能を示し,トークン効率は著しく向上した。
さらに、ReTreeverとPerceiver IOを比較し、推論に同じ数のトークンを使用しながら大きな利得を示した。
関連論文リスト
- ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Let's Think Dot by Dot: Hidden Computation in Transformer Language Models [30.972412126012884]
言語モデルの連鎖応答は、ほとんどのベンチマークのパフォーマンスを改善する。
変換器は、2つの難解なアルゴリズムタスクを解くための思考の連鎖の代わりに無意味なフィラートークンを使用できることを示す。
フィラートークンを使用する学習は困難であり、収束するためには、具体的で密集した監督が必要である。
論文 参考訳(メタデータ) (2024-04-24T09:30:00Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Linear-Time Modeling of Linguistic Structure: An Order-Theoretic
Perspective [97.57162770792182]
文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。
これらの徹底的な比較は避けられ、さらに、トークン間の関係を文字列上の部分順序としてキャストすることで、複雑さを線形に減らすことができる。
提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
論文 参考訳(メタデータ) (2023-05-24T11:47:35Z) - Token Sparsification for Faster Medical Image Segmentation [37.25161294917211]
セグメント化をスパース符号化 ->トークン補完 -> 密度復号化(SCD)パイプラインとして再構成する。
STPは軽量なサブネットワークで重要度を予測し、トップKトークンをサンプリングする。
MTAはスパース出力トークンとプルーニングされた多層中間トークンの両方を組み立てることで、完全なトークンシーケンスを復元する。
論文 参考訳(メタデータ) (2023-03-11T23:59:13Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。