論文の概要: Attention Flows: Analyzing and Comparing Attention Mechanisms in
Language Models
- arxiv url: http://arxiv.org/abs/2009.07053v1
- Date: Thu, 3 Sep 2020 19:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 07:53:48.201539
- Title: Attention Flows: Analyzing and Comparing Attention Mechanisms in
Language Models
- Title(参考訳): 注意の流れ:言語モデルにおける注意機構の分析と比較
- Authors: Joseph F DeRose, Jiayao Wang, and Matthew Berger
- Abstract要約: 注意に基づく言語モデルにおける微調整を理解するための視覚分析手法を提案する。
私たちの視覚化であるAttention Flowsは、Transformerベースの言語モデルにおいて、レイヤ内のクエリ、トレース、関心の比較をサポートするように設計されています。
- 参考スコア(独自算出の注目度): 5.866941279460248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in language modeling have led to the development of deep
attention-based models that are performant across a wide variety of natural
language processing (NLP) problems. These language models are typified by a
pre-training process on large unlabeled text corpora and subsequently
fine-tuned for specific tasks. Although considerable work has been devoted to
understanding the attention mechanisms of pre-trained models, it is less
understood how a model's attention mechanisms change when trained for a target
NLP task. In this paper, we propose a visual analytics approach to
understanding fine-tuning in attention-based language models. Our
visualization, Attention Flows, is designed to support users in querying,
tracing, and comparing attention within layers, across layers, and amongst
attention heads in Transformer-based language models. To help users gain
insight on how a classification decision is made, our design is centered on
depicting classification-based attention at the deepest layer and how attention
from prior layers flows throughout words in the input. Attention Flows supports
the analysis of a single model, as well as the visual comparison between
pre-trained and fine-tuned models via their similarities and differences. We
use Attention Flows to study attention mechanisms in various sentence
understanding tasks and highlight how attention evolves to address the nuances
of solving these tasks.
- Abstract(参考訳): 言語モデリングの進歩は、様々な自然言語処理(NLP)問題にまたがる、深い注意に基づくモデルの開発につながっている。
これらの言語モデルは、大きなラベルのないテキストコーパスの事前学習プロセスによってタイプされ、その後特定のタスクのために微調整される。
事前学習されたモデルの注意機構の理解に多くの研究が費やされているが、対象のNLPタスクのトレーニングにおいて、モデルの注意機構がどのように変化するかは理解されていない。
本稿では,注意に基づく言語モデルの微調整を理解するための視覚的分析手法を提案する。
私たちの視覚化であるAttention Flowsは、Transformerベースの言語モデルにおいて、レイヤ内のクエリ、トレース、関心の比較をサポートするように設計されています。
ユーザによる分類決定の仕方を理解するために,最も深い層における分類に基づく注意の表現と,入力中の単語全体を通して先行層からの注意がどのように流れているかに焦点を当てた設計を行った。
Attention Flowsは単一のモデルの解析をサポートし、類似点と相違点を通じて事前訓練されたモデルと微調整されたモデルの視覚的比較を行う。
我々は,様々な文理解課題における注意のメカニズムを研究するために注意の流れを使用し,これらの課題を解決するニュアンスに対処するために注意がどのように発展するかを強調する。
関連論文リスト
- Naturalness of Attention: Revisiting Attention in Code Language Models [3.756550107432323]
CodeBERTのようなコードの言語モデルは、高度なソースコード表現を学習する機能を提供するが、その不透明さは、取得したプロパティを理解する上で障壁となる。
本研究は、注意重みを超える注意機構のこれまで無視されていた要因について、いくつかの光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-11-22T16:34:12Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - On the Interpretability of Attention Networks [1.299941371793082]
注意モデルがどのように正確かを示すが、解釈できないことを示し、そのようなモデルがトレーニングの結果として発生することを示す。
空間性を促進するために設計されたいくつかの注意モデル学習アルゴリズムを評価し、これらのアルゴリズムが解釈可能性を向上させることを実証する。
論文 参考訳(メタデータ) (2022-12-30T15:31:22Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Improve the Interpretability of Attention: A Fast, Accurate, and
Interpretable High-Resolution Attention Model [6.906621279967867]
そこで本稿では,タスク関連情報を取り込むための,非線形代表非パラメトリックアテンション(BR-NPA)戦略を提案する。
提案したモデルは、分類が関与する様々な近代的な深層モデルに容易に適応できる。
また、通常のニューラルアテンションモジュールよりも正確で高速で、メモリフットプリントも小さい。
論文 参考訳(メタデータ) (2021-06-04T15:57:37Z) - Dodrio: Exploring Transformer Models with Interactive Visualization [10.603327364971559]
Dodrioは、NLP研究者や実践者が言語知識を持つトランスベースのモデルにおける注意メカニズムを分析するのに役立つオープンソースのインタラクティブビジュアライゼーションツールです。
注意重みと言語知識の視覚的比較を容易にするために、dodrioはより長い入力テキストで注意重みを表すために異なるグラフ視覚化技術を適用する。
論文 参考訳(メタデータ) (2021-03-26T17:39:37Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。