論文の概要: Efficient Representation Learning via Adaptive Context Pooling
- arxiv url: http://arxiv.org/abs/2207.01844v1
- Date: Tue, 5 Jul 2022 07:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 13:54:14.585118
- Title: Efficient Representation Learning via Adaptive Context Pooling
- Title(参考訳): 適応型コンテキストプールによる効率的な表現学習
- Authors: Chen Huang, Walter Talbott, Navdeep Jaitly, Josh Susskind
- Abstract要約: 自己注意機構は、個々のトークンによって定義された固定された注意の粒度を仮定するが、これはより高いレベルで複雑な依存関係をモデル化するのに最適ではないかもしれない。
トークン毎の注意の粒度を適応させることにより,この問題に対処するContextPoolを提案する。
ContextPoolは、注意モデルをより表現豊かにし、しばしば少ないレイヤで強力なパフォーマンスを実現し、その結果、コストを大幅に削減します。
- 参考スコア(独自算出の注目度): 15.673260849127695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention mechanisms model long-range context by using pairwise
attention between all input tokens. In doing so, they assume a fixed attention
granularity defined by the individual tokens (e.g., text characters or image
pixels), which may not be optimal for modeling complex dependencies at higher
levels. In this paper, we propose ContextPool to address this problem by
adapting the attention granularity for each token. Inspired by the success of
ConvNets that are combined with pooling to capture long-range dependencies, we
learn to pool neighboring features for each token before computing attention in
a given attention layer. The pooling weights and support size are adaptively
determined, allowing the pooled features to encode meaningful context with
varying scale. We show that ContextPool makes attention models more expressive,
achieving strong performance often with fewer layers and thus significantly
reduced cost. Experiments validate that our ContextPool module, when plugged
into transformer models, matches or surpasses state-of-the-art performance
using less compute on several language and image benchmarks, outperforms recent
works with learned context sizes or sparse attention patterns, and is also
applicable to ConvNets for efficient feature learning.
- Abstract(参考訳): 自己注意機構は、全ての入力トークン間のペアアテンションを用いて、長距離コンテキストをモデル化する。
その際、個々のトークン(テキスト文字や画像ピクセルなど)によって定義された固定された注意の粒度を仮定し、高いレベルで複雑な依存関係をモデル化するには最適ではないかもしれない。
本稿では,トークンごとの注意の粒度を適応させることにより,この問題に対処するContextPoolを提案する。
長距離依存関係をキャプチャするためにプールと組み合わせられたconvnetの成功にインスパイアされた私たちは、注意力層に注意を向ける前に、トークンごとに隣接する機能をプールすることを学びます。
プール重みとサポートサイズは適応的に決定され、プールされた特徴は様々なスケールで意味のあるコンテキストをエンコードできる。
contextpoolはアテンションモデルをより表現豊かにし、しばしば少ないレイヤで強力なパフォーマンスを達成し、コストを大幅に削減している。
実験では、ContextPoolモジュールがトランスフォーマーモデルにプラグインされた場合、いくつかの言語やイメージベンチマークでの計算量が少なく、最先端のパフォーマンスにマッチするか、あるいは上回っていることを検証する。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - Gramian Attention Heads are Strong yet Efficient Vision Learners [26.79263390835444]
複数のヘッダ分類器(e, classification head)を組み込むことで表現性を向上する新しいアーキテクチャ設計を提案する。
本手法では,資源オーバーヘッドを最小に抑えつつ,複数の軽量ヘッドを強化するために,一対の特徴的類似性を利用したアグリゲーションを用いる。
われわれのモデルは最終的に、ImageNet-1Kの精度の細かいトレードオフに関して、最先端のCNNやViTを上回ることになる。
論文 参考訳(メタデータ) (2023-10-25T09:08:58Z) - TokenFlow: Rethinking Fine-grained Cross-modal Alignment in
Vision-Language Retrieval [30.429340065755436]
我々は, 細粒度クロスモーダルアライメントのためのモデルに依存しない新しい定式化を考案した。
最適輸送理論に着想を得て,提案手法のインスタンス化であるemphTokenFlowを紹介した。
論文 参考訳(メタデータ) (2022-09-28T04:11:05Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - AdaPool: Exponential Adaptive Pooling for Information-Retaining
Downsampling [82.08631594071656]
畳み込み層は畳み込みニューラルネットワーク(CNN)の重要な構成要素である
適応的で指数関数的に重み付けされたアダプール法を提案する。
adaPoolは画像やビデオの分類やオブジェクト検出など,さまざまなタスクを通じて,ディテールの保存性の向上を実証する。
論文 参考訳(メタデータ) (2021-11-01T08:50:37Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Text Information Aggregation with Centrality Attention [86.91922440508576]
本稿では, 固有中央集権自己注意という, 集権重み付けの新たな方法を提案する。
文中のすべての単語に対する完全連結グラフを構築し,各単語の注意点として固有中央性を計算する。
論文 参考訳(メタデータ) (2020-11-16T13:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。