論文の概要: Human Interpretation and Exploitation of Self-attention Patterns in
Transformers: A Case Study in Extractive Summarization
- arxiv url: http://arxiv.org/abs/2112.05364v1
- Date: Fri, 10 Dec 2021 07:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 23:05:22.001178
- Title: Human Interpretation and Exploitation of Self-attention Patterns in
Transformers: A Case Study in Extractive Summarization
- Title(参考訳): トランスフォーマーの人間解釈と自己意識パターンの爆発 : 抽出的要約を事例として
- Authors: Raymond Li, Wen Xiao, Lanjun Wang, Giuseppe Carenini
- Abstract要約: 本稿では,まず,タスク固有の重要な注意パターンを見つけるために,ループ内パイプラインにおける2つの研究の行を相乗化する。
そして、これらのパターンを元のモデルだけでなく、より小さなモデルにも適用します。
実験の結果、そのようなパターンを注入すると、元のモデルと小さなモデルの両方のパフォーマンスが向上し、必然的に解釈可能であることが示された。
- 参考スコア(独自算出の注目度): 9.42402875164615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer multi-head self-attention mechanism has been thoroughly
investigated recently. On one hand, researchers are interested in understanding
why and how transformers work. On the other hand, they propose new attention
augmentation methods to make transformers more accurate, efficient and
interpretable. In this paper, we synergize these two lines of research in a
human-in-the-loop pipeline to first find important task-specific attention
patterns. Then those patterns are applied, not only to the original model, but
also to smaller models, as a human-guided knowledge distillation process. The
benefits of our pipeline are demonstrated in a case study with the extractive
summarization task. After finding three meaningful attention patterns in the
popular BERTSum model, experiments indicate that when we inject such patterns,
both the original and the smaller model show improvements in performance and
arguably interpretability.
- Abstract(参考訳): 変圧器のマルチヘッド自己保持機構は近年, 徹底的に研究されている。
一方、研究者はトランスフォーマーの動作の理由と仕組みを理解することに興味を持っている。
一方, 変圧器をより正確, 効率的, 解釈可能なものにするための新しい注意増強手法を提案する。
本稿では,これら2つの研究をループ内パイプラインで統合し,タスク固有の注意パターンを最初に発見する。
そして、これらのパターンは、元のモデルだけでなく、より小さなモデルにも、人間誘導の知識蒸留プロセスとして適用されます。
このパイプラインの利点は,抽出的要約タスクを用いたケーススタディで実証された。
一般的なbertsumモデルで3つの有意義な注意パターンを見つけた後、実験では、そのようなパターンを注入すると、オリジナルモデルと小さなモデルの両方がパフォーマンスと間違いなく解釈性が向上することを示している。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - Evaluating Prompt-based Question Answering for Object Prediction in the
Open Research Knowledge Graph [0.0]
本研究は,テクスチャ学習用グラフオブジェクト予測のためのトランスフォーマーの即時学習導入に関する成果を報告する。
学術知識グラフのオブジェクトを予測するためにエンティティと関係抽出パイプラインを提案する他の研究から逸脱する。
i) 期待値当たり、(i) 新たなデータ領域でテストされた場合のトランスフォーマーモデル、(ii) モデルの迅速なトレーニングにより、緩和された評価設定で最大40%の性能向上が達成されることがわかった。
論文 参考訳(メタデータ) (2023-05-22T10:35:18Z) - AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Efficient Two-Stage Detection of Human-Object Interactions with a Novel
Unary-Pairwise Transformer [41.44769642537572]
Unary-Pairwise Transformerは、HOIのユニタリおよびペアワイズ表現を利用する2段階の検出器である。
本手法はHICO-DETおよびV-COCOデータセット上で評価し,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-03T10:52:06Z) - On the Bias Against Inductive Biases [34.10348216388905]
視覚タスクのための自己教師付き特徴学習は、これらの非常に深い等方性ネットワークを使用して最先端の成功を収めた。
本研究では、教師なし視覚特徴学習に用いる小型・中等度等方性ネットワークに対する誘導バイアスの効果を解析する。
論文 参考訳(メタデータ) (2021-05-28T19:41:48Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Guiding Attention for Self-Supervised Learning with Transformers [24.785500242464646]
双方向変換器を用いた効率的な自己教師型学習を実現する手法を提案する。
我々のアプローチは、訓練されたモデルにおける自己注意パターンが非言語的規則性の大部分を含んでいることを示す最近の研究によって動機付けられている。
論文 参考訳(メタデータ) (2020-10-06T00:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。