論文の概要: Context-Sensitive Visualization of Deep Learning Natural Language
Processing Models
- arxiv url: http://arxiv.org/abs/2105.12202v1
- Date: Tue, 25 May 2021 20:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:40:36.305287
- Title: Context-Sensitive Visualization of Deep Learning Natural Language
Processing Models
- Title(参考訳): 深層学習自然言語処理モデルの文脈知覚的可視化
- Authors: Andrew Dunn, Diana Inkpen, R\u{a}zvan Andonie
- Abstract要約: そこで我々は,新しいNLP変換器のコンテキスト依存可視化手法を提案する。
アウトプットに最も影響を与えるトークン(単語)の最も重要なグループを見つけます。
最も影響力のある単語の組み合わせはヒートマップで視覚化される。
- 参考スコア(独自算出の注目度): 9.694190108703229
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The introduction of Transformer neural networks has changed the landscape of
Natural Language Processing (NLP) during the last years. So far, none of the
visualization systems has yet managed to examine all the facets of the
Transformers. This gave us the motivation of the current work. We propose a new
NLP Transformer context-sensitive visualization method that leverages existing
NLP tools to find the most significant groups of tokens (words) that have the
greatest effect on the output, thus preserving some context from the original
text. First, we use a sentence-level dependency parser to highlight promising
word groups. The dependency parser creates a tree of relationships between the
words in the sentence. Next, we systematically remove adjacent and non-adjacent
tuples of \emph{n} tokens from the input text, producing several new texts with
those tokens missing. The resulting texts are then passed to a pre-trained BERT
model. The classification output is compared with that of the full text, and
the difference in the activation strength is recorded. The modified texts that
produce the largest difference in the target classification output neuron are
selected, and the combination of removed words are then considered to be the
most influential on the model's output. Finally, the most influential word
combinations are visualized in a heatmap.
- Abstract(参考訳): トランスフォーマーニューラルネットワークの導入は、ここ数年で自然言語処理(NLP)の状況を変えてきた。
これまでのところ、どの可視化システムも、トランスフォーマーのすべての側面を調べることができていない。
これが現在の仕事の動機となった。
我々は,既存のNLPツールを活用して,出力に最も大きな影響を及ぼすトークン群(単語)を検索し,元のテキストからコンテキストを保存できる新しいNLP変換器のコンテキストセンシティブ可視化手法を提案する。
まず,文レベルの依存構文解析器を用いて有望な単語群を強調する。
依存関係パーサは、文中の単語間の関係のツリーを作成する。
次に, 入力テキストから, 隣接および非隣接のタプルを体系的に取り除き, それらのトークンが欠落した新しいテキストを複数生成する。
得られたテキストは、事前訓練されたBERTモデルに渡される。
分類出力を全文と比較し、活性化強度の違いを記録する。
ターゲット分類出力ニューロンの最大の差を生み出す修正されたテキストを選択し、除去された単語の組み合わせがモデルの出力に最も影響を与えると考えられる。
最後に、最も影響力のある単語の組み合わせをヒートマップで視覚化する。
関連論文リスト
- Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - A Case Study of Spanish Text Transformations for Twitter Sentiment
Analysis [1.9694608733361543]
感性分析は、与えられたテキストの極性、すなわちその正性または負性を決定するテキストマイニングタスクである。
テキスト表現の新しい形式は、スラング、正書法、文法的誤りを用いてテキストを分析するための新しい課題を示す。
論文 参考訳(メタデータ) (2021-06-03T17:24:31Z) - Dependency Parsing based Semantic Representation Learning with Graph
Neural Network for Enhancing Expressiveness of Text-to-Speech [49.05471750563229]
文の依存性関係を考慮したグラフニューラルネットワークに基づく意味表現学習手法を提案する。
提案手法は,LJSpeech と Bilzzard Challenge 2013 のデータセットにおいて,バニラBERT の機能をベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2021-04-14T13:09:51Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - An Intelligent CNN-VAE Text Representation Technology Based on Text
Semantics for Comprehensive Big Data [15.680918844684454]
畳み込みニューラルネットワーク(CNN)と可変オートエンコーダ(VAE)に基づくテキスト特徴表現モデルを提案する。
提案手法は,k-nearest neighbor (KNN), random forest (RF) および Support vector machine (SVM) 分類アルゴリズムにおいて優れる。
論文 参考訳(メタデータ) (2020-08-28T07:39:45Z) - PALM: Pre-training an Autoencoding&Autoregressive Language Model for
Context-conditioned Generation [92.7366819044397]
自己指導型事前学習は、自然言語の理解と生成のための強力な技術として登場した。
本研究は,大規模未ラベルコーパス上で自己エンコーディングと自己回帰言語モデルを共同で事前学習する新しいスキームをPALMに提示する。
広範な実験により、PALMは様々な言語生成ベンチマークにおいて、新しい最先端の結果を達成することが示されている。
論文 参考訳(メタデータ) (2020-04-14T06:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。