論文の概要: Paying More Attention to Self-attention: Improving Pre-trained Language
Models via Attention Guiding
- arxiv url: http://arxiv.org/abs/2204.02922v1
- Date: Wed, 6 Apr 2022 16:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 17:20:30.782381
- Title: Paying More Attention to Self-attention: Improving Pre-trained Language
Models via Attention Guiding
- Title(参考訳): 自己注意にもっと注意を払う:注意誘導による事前学習言語モデルの改善
- Authors: Shanshan Wang, Zhumin Chen, Zhaochun Ren, Huasheng Liang, Qiang Yan,
Pengjie Ren
- Abstract要約: 事前学習された言語モデル(PLM)は、幅広い情報検索や自然言語処理タスクに有効であることを示した。
PLMの中核として、多頭自尊心は、異なる位置からの情報に共同で出席する能力に訴えている。
本稿では,2種類の注意誘導手法,すなわち地図識別誘導法(MDG)と注意パターンデコリレーション誘導法(PDG)を提案する。
- 参考スコア(独自算出の注目度): 35.958164594419515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models (PLM) have demonstrated their effectiveness for a
broad range of information retrieval and natural language processing tasks. As
the core part of PLM, multi-head self-attention is appealing for its ability to
jointly attend to information from different positions. However, researchers
have found that PLM always exhibits fixed attention patterns regardless of the
input (e.g., excessively paying attention to [CLS] or [SEP]), which we argue
might neglect important information in the other positions. In this work, we
propose a simple yet effective attention guiding mechanism to improve the
performance of PLM by encouraging attention towards the established goals.
Specifically, we propose two kinds of attention guiding methods, i.e., map
discrimination guiding (MDG) and attention pattern decorrelation guiding (PDG).
The former definitely encourages the diversity among multiple self-attention
heads to jointly attend to information from different representation subspaces,
while the latter encourages self-attention to attend to as many different
positions of the input as possible. We conduct experiments with multiple
general pre-trained models (i.e., BERT, ALBERT, and Roberta) and
domain-specific pre-trained models (i.e., BioBERT, ClinicalBERT, BlueBert, and
SciBERT) on three benchmark datasets (i.e., MultiNLI, MedNLI, and
Cross-genre-IR). Extensive experimental results demonstrate that our proposed
MDG and PDG bring stable performance improvements on all datasets with high
efficiency and low cost.
- Abstract(参考訳): 事前学習された言語モデル(PLM)は、幅広い情報検索や自然言語処理タスクに有効であることを示した。
PLMの中核として、多頭自尊心は、異なる位置からの情報に共同で出席する能力に訴えている。
しかし、PLMは入力によらず常に固定された注意パターン(例えば、[CLS] や[SEP] に過度に注意を払うなど)を示しており、他の位置において重要な情報を無視する可能性がある。
本研究は,PLMの性能向上に資し,確立した目標への注意を喚起する,シンプルながら効果的な注意誘導機構を提案する。
具体的には,地図識別ガイド(MDG)と注意パターンデコリレーションガイド(PDG)の2種類の注意誘導手法を提案する。
前者は複数の自己意図的頭部間の多様性を、異なる表現部分空間からの情報に共同で参加するように、後者は可能な限り多くの異なる入力位置への自己意識を奨励する。
我々は3つのベンチマークデータセット(MultiNLI, MedNLI, Cross-genre-IR)上で、複数の事前訓練モデル(BERT, ALBERT, Roberta)とドメイン固有の事前訓練モデル(BioBERT, ClinicalBERT, BlueBert, SciBERT)を用いて実験を行った。
その結果,提案したMDGとPDGは,高効率かつ低コストで全データセットに安定した性能向上をもたらすことがわかった。
関連論文リスト
- Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。
本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。
ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文 参考訳(メタデータ) (2024-06-22T07:00:43Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Beyond Just Vision: A Review on Self-Supervised Representation Learning
on Multimodal and Temporal Data [10.006890915441987]
自己教師型学習の普及は、従来のモデルがトレーニングに大量の十分な注釈付きデータを必要とするという事実によって引き起こされる。
モデルの差別的事前学習を通じて、訓練データの効率を向上させるための自己指導手法が導入された。
我々は,時間的データに対するマルチモーダルな自己教師型学習手法の総合的なレビューを初めて提供することを目的とする。
論文 参考訳(メタデータ) (2022-06-06T04:59:44Z) - Dual Cross-Attention Learning for Fine-Grained Visual Categorization and
Object Re-Identification [19.957957963417414]
本稿では,自己意図学習と協調する2つのクロスアテンション学習(DCAL)アルゴリズムを提案する。
まず,グローバル・ローカル・クロスアテンション(GLCA)を提案する。
第2に、画像ペア間の相互作用を確立するために、ペアワイズ・クロスアテンション(PWCA)を提案する。
論文 参考訳(メタデータ) (2022-05-04T16:14:26Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。