論文の概要: Compositional Attention: Disentangling Search and Retrieval
- arxiv url: http://arxiv.org/abs/2110.09419v1
- Date: Mon, 18 Oct 2021 15:47:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 17:47:20.488062
- Title: Compositional Attention: Disentangling Search and Retrieval
- Title(参考訳): 構成的注意:検索と検索を遠ざける
- Authors: Sarthak Mittal, Sharath Chandra Raparthy, Irina Rish, Yoshua Bengio
and Guillaume Lajoie
- Abstract要約: Multi-head, key-value attention は Transformer モデルとそのバリエーションのバックボーンである。
標準的なアテンションヘッドは、検索と検索の間の厳密なマッピングを学ぶ。
本稿では,標準ヘッド構造を置き換える新しいアテンション機構であるコンポジションアテンションアテンションを提案する。
- 参考スコア(独自算出の注目度): 66.7108739597771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-head, key-value attention is the backbone of the widely successful
Transformer model and its variants. This attention mechanism uses multiple
parallel key-value attention blocks (called heads), each performing two
fundamental computations: (1) search - selection of a relevant entity from a
set via query-key interactions, and (2) retrieval - extraction of relevant
features from the selected entity via a value matrix. Importantly, standard
attention heads learn a rigid mapping between search and retrieval. In this
work, we first highlight how this static nature of the pairing can potentially:
(a) lead to learning of redundant parameters in certain tasks, and (b) hinder
generalization. To alleviate this problem, we propose a novel attention
mechanism, called Compositional Attention, that replaces the standard head
structure. The proposed mechanism disentangles search and retrieval and
composes them in a dynamic, flexible and context-dependent manner through an
additional soft competition stage between the query-key combination and value
pairing. Through a series of numerical experiments, we show that it outperforms
standard multi-head attention on a variety of tasks, including some
out-of-distribution settings. Through our qualitative analysis, we demonstrate
that Compositional Attention leads to dynamic specialization based on the type
of retrieval needed. Our proposed mechanism generalizes multi-head attention,
allows independent scaling of search and retrieval, and can easily be
implemented in lieu of standard attention heads in any network architecture.
- Abstract(参考訳): マルチヘッドキーバリューアテンションは、広く成功したTransformerモデルとそのバリエーションのバックボーンである。
このアテンション機構は、複数の並列キー値アテンションブロック(ヘッドと呼ばれる)を使用しており、それぞれが(1)クエリーキーインタラクションを介して集合から関連するエンティティを検索する、(2)検索する、(2)選択されたエンティティから値マトリックスを介して関連する特徴を抽出する、という2つの基本的な計算を行う。
重要なのは、標準注意ヘッドが検索と検索の間の厳格なマッピングを学ぶことだ。
この研究で最初に強調するのは、このペアリングの静的な性質についてである。
a)特定のタスクにおける冗長なパラメータの学習につながる、そして
b)一般化を妨げる。
この問題を軽減するため,本研究では,標準の頭部構造に代えて構成的注意と呼ばれる新しい注意機構を提案する。
提案機構は,検索と検索を動的かつ柔軟かつコンテキストに依存した方法で構成し,クエリキーの組み合わせと値ペアリングのソフトコンペティションの段階を付加する。
数値実験の結果,分散環境を含む様々なタスクにおいて,マルチヘッドの標準的な注目度を上回っていることがわかった。
定性的な分析を通して、構成的注意が、必要な検索の種類に基づいて動的特殊化につながることを示す。
提案機構は,マルチヘッドアテンションを一般化し,検索と検索の独立スケーリングを可能にし,任意のネットワークアーキテクチャにおいて標準的なアテンションヘッドの代わりに容易に実装できる。
関連論文リスト
- AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - Aspect-Oriented Summarization through Query-Focused Extraction [23.62412515574206]
実際のユーザのニーズは、特定のクエリではなく、ユーザが興味を持っているデータセットの幅広いトピックという側面に、より深く浸透することが多い。
抽出クエリに焦点を絞った学習手法をベンチマークし、モデルを訓練するための対照的な拡張手法を提案する。
我々は2つのアスペクト指向データセットを評価し、この手法が一般的な要約システムよりも焦点を絞った要約を得られることを発見した。
論文 参考訳(メタデータ) (2021-10-15T18:06:21Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Beyond Self-attention: External Attention using Two Linear Layers for
Visual Tasks [34.32609892928909]
外部注意と呼ばれる新しい注意機構を,外部的,小さく,学習可能,共有的記憶の2つに基づいて提案する。
提案手法は,自己保持機構とその変種に匹敵する性能を有し,計算コストとメモリコストを大幅に低減する。
論文 参考訳(メタデータ) (2021-05-05T22:29:52Z) - Improving Attention Mechanism with Query-Value Interaction [92.67156911466397]
本稿では,問合せ対応の注目値を学習可能な問合せ-値相互作用関数を提案する。
我々のアプローチは、多くの注意に基づくモデルの性能を一貫して改善することができる。
論文 参考訳(メタデータ) (2020-10-08T05:12:52Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Self-Segregating and Coordinated-Segregating Transformer for Focused
Deep Multi-Modular Network for Visual Question Answering [9.89901717499058]
性能向上のためのアプリケーションの内容の優先順位付けが可能な分離戦略を定義する。
我々はSST(Self-Segregating Transformer)とCST(Coordinated-Segregating Transformer)の2つの戦略を定義した。
この作業は、繰り返しや複数の機能のフレームを含む他の多くのアプリケーションで簡単に利用できます。
論文 参考訳(メタデータ) (2020-06-25T09:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。