論文の概要: Picking the Underused Heads: A Network Pruning Perspective of Attention
Head Selection for Fusing Dialogue Coreference Information
- arxiv url: http://arxiv.org/abs/2312.09541v1
- Date: Fri, 15 Dec 2023 05:27:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 17:01:06.382245
- Title: Picking the Underused Heads: A Network Pruning Perspective of Attention
Head Selection for Fusing Dialogue Coreference Information
- Title(参考訳): 未使用の頭部の選定:対話コリファレンス情報を用いた注意ヘッド選択のネットワークpruning視点
- Authors: Zhengyuan Liu, Nancy F. Chen
- Abstract要約: マルチヘッド自己アテンション機構を持つトランスフォーマーベースのモデルは自然言語処理で広く利用されている。
ネットワークプルーニングの観点から,特徴注入のためのアテンションヘッドの選択と操作戦略について検討する。
- 参考スコア(独自算出の注目度): 50.41829484199252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer-based models with the multi-head self-attention mechanism are
widely used in natural language processing, and provide state-of-the-art
results. While the pre-trained language backbones are shown to implicitly
capture certain linguistic knowledge, explicitly incorporating structure-aware
features can bring about further improvement on the downstream tasks. However,
such enhancement often requires additional neural components and increases
training parameter size. In this work, we investigate the attention head
selection and manipulation strategy for feature injection from a network
pruning perspective, and conduct a case study on dialogue summarization. We
first rank attention heads in a Transformer-based summarizer with layer-wise
importance. We then select the underused heads through extensive analysis, and
inject structure-aware features by manipulating the selected heads.
Experimental results show that the importance-based head selection is effective
for feature injection, and dialogue summarization can be improved by
incorporating coreference information via head manipulation.
- Abstract(参考訳): マルチヘッドセルフアテンション機構を備えたトランスフォーマーモデルは,自然言語処理において広く用いられ,最先端の結果を提供する。
事前学習された言語バックボーンは、特定の言語知識を暗黙的に捉えることが示されているが、構造認識機能を明示的に組み込むことで、下流タスクがさらに改善される可能性がある。
しかし、このような強化には、しばしば追加の神経コンポーネントが必要となり、トレーニングパラメータのサイズが増加する。
本研究では,特徴注入のための注意ヘッド選択と操作戦略をネットワークプルーニングの観点から検討し,対話要約を事例として検討する。
まず、階層的に重要なトランスフォーマーベースの要約器で注意点をランク付けする。
次に,未使用の頭部を広範囲な解析により選択し,選択した頭部を操作することで構造認識特徴を注入する。
実験の結果,重要度に基づく頭部選択は特徴注入に有効であり,頭部操作によるコレファレンス情報の導入により対話要約が改善されることがわかった。
関連論文リスト
- Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - Analysis of the Evolution of Advanced Transformer-Based Language Models:
Experiments on Opinion Mining [0.5735035463793008]
本稿では,最先端のトランスフォーマーに基づく言語モデルの意見マイニングにおける挙動について検討する。
私たちの比較研究は、フォーカスするアプローチに関して、プロダクションエンジニアがリードし、道を開く方法を示しています。
論文 参考訳(メタデータ) (2023-08-07T01:10:50Z) - Domain-specific Language Pre-training for Dialogue Comprehension on
Clinical Inquiry-Answering Conversations [28.567701055153385]
自然言語処理の最近の進歩は、大規模な事前訓練された言語バックボーンを機械理解や情報抽出のタスクに活用できることを示唆している。
しかし、事前トレーニングと下流臨床ドメインのギャップのため、ドメイン固有のアプリケーションに一般的なバックボーンを活用することは依然として困難である。
本稿では,対話理解などの下流タスクの性能向上を目的とした,ドメイン固有言語事前学習を提案する。
論文 参考訳(メタデータ) (2022-06-06T08:45:03Z) - Initial Study into Application of Feature Density and
Linguistically-backed Embedding to Improve Machine Learning-based
Cyberbullying Detection [54.83707803301847]
この研究は、自動サイバーバブル検出に関するKaggleコンペティションで提供されたFormspringデータセットで実施された。
本研究は,サイバブリング検出におけるニューラルネットワークの有効性と分類器性能と特徴密度の相関性を確認した。
論文 参考訳(メタデータ) (2022-06-04T03:17:15Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。