論文の概要: Classifying Scientific Publications with BERT -- Is Self-Attention a
Feature Selection Method?
- arxiv url: http://arxiv.org/abs/2101.08114v1
- Date: Wed, 20 Jan 2021 13:22:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:34:34.392317
- Title: Classifying Scientific Publications with BERT -- Is Self-Attention a
Feature Selection Method?
- Title(参考訳): BERTによる科学出版の分類 -自己認識は特徴選択法か?
- Authors: Andres Garcia-Silva and Jose Manuel Gomez-Perez
- Abstract要約: 科学論文分類のための微調整シナリオにおけるBERTの自己保持機構について検討する。
記事のドメインに強く関係する単語に自己注意がどのように焦点をあてるかを観察する。
テキスト分類に通常用いられる特徴選択法と,最も参加者の多い単語のサブセットを比較し,評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the self-attention mechanism of BERT in a fine-tuning scenario
for the classification of scientific articles over a taxonomy of research
disciplines. We observe how self-attention focuses on words that are highly
related to the domain of the article. Particularly, a small subset of
vocabulary words tends to receive most of the attention. We compare and
evaluate the subset of the most attended words with feature selection methods
normally used for text classification in order to characterize self-attention
as a possible feature selection approach. Using ConceptNet as ground truth, we
also find that attended words are more related to the research fields of the
articles. However, conventional feature selection methods are still a better
option to learn classifiers from scratch. This result suggests that, while
self-attention identifies domain-relevant terms, the discriminatory information
in BERT is encoded in the contextualized outputs and the classification layer.
It also raises the question whether injecting feature selection methods in the
self-attention mechanism could further optimize single sequence classification
using transformers.
- Abstract(参考訳): 本研究では,研究分野の分類学における理科論文の分類のための微調整シナリオにおいて,BERTの自己注意機構について検討する。
記事のドメインに強く関係する単語に自己注意がどのように焦点をあてるかを観察する。
特に、語彙の小さな部分集合は、ほとんどの注目を集める傾向にある。
本研究は, テキスト分類に通常用いられる特徴選択手法と, 最多単語のサブセットを比較し, 評価し, 特徴選択アプローチとして自己認識を特徴付ける。
また,conceptnet を基礎的真実として用いることで,論文の研究分野に参加者の言葉がより関連していることが分かる。
しかし、従来の特徴選択法は、スクラッチから分類器を学習するよりは良い選択肢である。
この結果は、自己注意がドメイン関連用語を認識する一方で、BERTの識別情報は文脈化された出力と分類層に符号化されていることを示唆している。
また、セルフアテンション機構に特徴選択メソッドを注入することでトランスフォーマーを用いた単一シーケンス分類をさらに最適化できるかどうかという疑問を提起する。
関連論文リスト
- Empowering Interdisciplinary Research with BERT-Based Models: An Approach Through SciBERT-CNN with Topic Modeling [0.0]
本稿では,SciBERTモデルとCNNを用いて,学術論文を体系的に分類する手法を提案する。
CNNは、畳み込みとプーリングを使用して特徴抽出を強化し、次元を減少させる。
論文 参考訳(メタデータ) (2024-04-16T05:21:47Z) - FastClass: A Time-Efficient Approach to Weakly-Supervised Text
Classification [14.918600168973564]
本稿では,効率的な弱教師付き分類手法であるFastClassを提案する。
センシティブテキスト表現を使用して、外部ラベルなしコーパスからクラス関連文書を検索する。
実験により,提案手法は,分類精度の観点からキーワード駆動モデルよりも優れており,訓練速度のオーダー・オブ・マグニチュードが高速であることが確認された。
論文 参考訳(メタデータ) (2022-12-11T13:43:22Z) - Computer-Assisted Creation of Boolean Search Rules for Text
Classification in the Legal Domain [0.5249805590164901]
我々はCASEと呼ばれる対話型環境を開発し、単語共起を利用して人間アノテータに関連する検索語の選択を誘導する。
このシステムは、分類規則の反復的評価と改善をシームレスに行う。
4つのデータセットからCASEシステムを用いて作成した分類器を評価し,その結果を機械学習手法と比較した。
論文 参考訳(メタデータ) (2021-12-10T19:53:41Z) - Conical Classification For Computationally Efficient One-Class Topic
Determination [0.0]
本稿では,特定のトピックに関連する文書を識別するコニカル分類手法を提案する。
分析の結果、我々のアプローチはデータセットの予測能力が高く、計算も高速であることがわかった。
論文 参考訳(メタデータ) (2021-10-31T01:27:12Z) - Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt
Verbalizer for Text Classification [68.3291372168167]
我々は、外部知識を言語化に取り入れることに集中し、知識に富んだプロンプトチューニング(KPT)を形成する。
我々は,外部知識ベース(KB)を用いてラベル語空間を拡張し,拡張されたラベル語空間で予測する前に PLM 自体で拡張されたラベル語空間を洗練する。
ゼロと少数ショットのテキスト分類タスクの実験は、知識のあるプロンプトチューニングの有効性を示す。
論文 参考訳(メタデータ) (2021-08-04T13:00:16Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Causal Feature Selection with Dimension Reduction for Interpretable Text
Classification [7.20833506531457]
テキストの特徴選択のためのマッチングに基づく因果推論手法のクラスについて検討する。
テキストの特徴選択を改善するために,次元削減と因果推論を組み合わせた新たな因果特徴選択フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T14:36:49Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z) - Symbiotic Attention with Privileged Information for Egocentric Action
Recognition [71.0778513390334]
我々は,エゴセントリックなビデオ認識のための新しい共生アテンションフレームワークを提案する。
本フレームワークは,動詞の分岐,名詞の分岐,特権情報間の相互通信を可能にする。
特に、大規模なエゴセントリックな2つのビデオデータセットの最先端を実現している。
論文 参考訳(メタデータ) (2020-02-08T10:48:43Z) - Improving Domain-Adapted Sentiment Classification by Deep Adversarial
Mutual Learning [51.742040588834996]
ドメイン適応型感情分類(ドメイン適応型感情分類、Domain-adapted sentiment classification)は、ラベル付きソースドメインでトレーニングを行い、ラベルなしターゲットドメイン上で文書レベルの感情を適切に推測する。
本稿では,2つの特徴抽出器群,ドメイン識別器群,感情分類器群,ラベル探索器群を包含する新たな相互学習手法を提案する。
論文 参考訳(メタデータ) (2020-02-01T01:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。