論文の概要: Paperswithtopic: Topic Identification from Paper Title Only
- arxiv url: http://arxiv.org/abs/2110.15721v1
- Date: Sat, 9 Oct 2021 06:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-07 16:18:59.707468
- Title: Paperswithtopic: Topic Identification from Paper Title Only
- Title(参考訳): Paperswithtopic: 紙のタイトルのみからのトピック識別
- Authors: Daehyun Cho, Christian Wallraven
- Abstract要約: 人工知能(AI)分野からタイトルとサブフィールドで組み合わせた論文のデータセットを提示する。
また、論文タイトルのみから、論文のAIサブフィールドを予測する方法についても提示する。
変圧器モデルに対しては、モデルの分類過程をさらに説明するために、勾配に基づく注意可視化も提示する。
- 参考スコア(独自算出の注目度): 5.025654873456756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deep learning field is growing rapidly as witnessed by the exponential
growth of papers submitted to journals, conferences, and pre-print servers. To
cope with the sheer number of papers, several text mining tools from natural
language processing (NLP) have been proposed that enable researchers to keep
track of recent findings. In this context, our paper makes two main
contributions: first, we collected and annotated a dataset of papers paired by
title and sub-field from the field of artificial intelligence (AI), and,
second, we present results on how to predict a paper's AI sub-field from a
given paper title only. Importantly, for the latter, short-text classification
task we compare several algorithms from conventional machine learning all the
way up to recent, larger transformer architectures. Finally, for the
transformer models, we also present gradient-based, attention visualizations to
further explain the model's classification process. All code can be found at
\url{https://github.com/1pha/paperswithtopic}
- Abstract(参考訳): ディープラーニング分野は、ジャーナル、カンファレンス、プレプリントサーバに提出された論文の指数関数的な成長によって、急速に成長している。
論文数に対処するため、自然言語処理(NLP)によるテキストマイニングツールがいくつか提案されている。
この文脈では、まず、AI(人工知能)の分野から、タイトルとサブフィールドで組み合わせた論文のデータセットを収集し、注釈付けし、次に、与えられた論文のタイトルからのみ、論文のAIサブフィールドを予測する方法について、結果を提示する。
重要なことに、後者の短いテキスト分類タスクでは、従来の機械学習から最近の大きなトランスフォーマーアーキテクチャまで、いくつかのアルゴリズムを比較します。
最後に, 変圧器モデルに対して, モデルの分類過程をさらに説明するために, 勾配に基づく注意可視化を行う。
すべてのコードは \url{https://github.com/1pha/paperswithtopic} で見ることができる。
関連論文リスト
- Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Named Entity Recognition Based Automatic Generation of Research
Highlights [3.9410617513331863]
我々は,研究論文の異なるセクションを入力として,研究ハイライトを自動的に生成することを目指している。
入力に名前付きエンティティ認識を用いることで、生成したハイライトの品質が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-02-25T16:33:03Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Hierarchical Neural Network Approaches for Long Document Classification [3.6700088931938835]
我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。
提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。
USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
論文 参考訳(メタデータ) (2022-01-18T07:17:40Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Tell Me How to Survey: Literature Review Made Simple with Automatic
Reading Path Generation [16.07200776251764]
論文を大量の文献から読めば、簡単な調査をしたり、特定の研究トピックに関する最新の進歩に遅れないようにする方法が課題になっている。
Google Scholarのような既存の学術検索エンジンは、各論文とクエリ間の関連性を個別に計算することで、関連論文を返す。
本稿では,あるクエリに対して読み込む論文のパスを自動生成することを目的とした読解パス生成(RPG)を紹介する。
論文 参考訳(メタデータ) (2021-10-12T20:58:46Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Pretrained Transformers for Text Ranking: BERT and Beyond [53.83210899683987]
このサーベイは、トランスフォーマーとして知られるニューラルネットワークアーキテクチャによるテキストランキングの概要を提供する。
トランスフォーマーと自己教師型事前学習の組み合わせは、自然言語処理のパラダイムシフトの原因となっている。
論文 参考訳(メタデータ) (2020-10-13T15:20:32Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z) - Document Modeling with Graph Attention Networks for Multi-grained
Machine Reading Comprehension [127.3341842928421]
Natural Questionsは、新しい挑戦的な機械読解ベンチマークである。
解答は2つあり、長解(典型的には1段落)と短解(長解の内にある1つ以上の実体)である。
既存の方法は、これらの2つのサブタスクをトレーニング中に個別に扱い、依存関係を無視します。
本稿では,文書を階層的にモデル化する多層機械読解フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-12T14:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。