論文の概要: Structure-Tags Improve Text Classification for Scholarly Document
Quality Prediction
- arxiv url: http://arxiv.org/abs/2005.00129v2
- Date: Thu, 17 Dec 2020 20:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:12:23.196825
- Title: Structure-Tags Improve Text Classification for Scholarly Document
Quality Prediction
- Title(参考訳): 文書品質予測のための構造タグの改善
- Authors: Gideon Maillette de Buy Wenniger, Thomas van Dongen, Eleri Aedmaa,
Herbert Teun Kruitbosch, Edwin A. Valentijn, and Lambert Schomaker
- Abstract要約: 本稿では,文書中の文の役割を示す構造タグとHANの利用を提案する。
文にタグを追加し、タイトル、抽象的、あるいは本文に対応するマークを付けると、学術的な文書品質予測のための最先端技術よりも改善される。
- 参考スコア(独自算出の注目度): 4.4641025448898475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training recurrent neural networks on long texts, in particular scholarly
documents, causes problems for learning. While hierarchical attention networks
(HANs) are effective in solving these problems, they still lose important
information about the structure of the text. To tackle these problems, we
propose the use of HANs combined with structure-tags which mark the role of
sentences in the document. Adding tags to sentences, marking them as
corresponding to title, abstract or main body text, yields improvements over
the state-of-the-art for scholarly document quality prediction. The proposed
system is applied to the task of accept/reject prediction on the PeerRead
dataset and compared against a recent BiLSTM-based model and joint
textual+visual model as well as against plain HANs. Compared to plain HANs,
accuracy increases on all three domains. On the computation and language domain
our new model works best overall, and increases accuracy 4.7% over the best
literature result. We also obtain improvements when introducing the tags for
prediction of the number of citations for 88k scientific publications that we
compiled from the Allen AI S2ORC dataset. For our HAN-system with
structure-tags we reach 28.5% explained variance, an improvement of 1.8% over
our reimplementation of the BiLSTM-based model as well as 1.0% improvement over
plain HANs.
- Abstract(参考訳): 長いテキスト、特に学術文書でのリカレントニューラルネットワークのトレーニングは、学習に問題を引き起こす。
階層的注意ネットワーク(HAN)はこれらの問題を解決するのに有効であるが、テキストの構造に関する重要な情報を失う。
これらの問題に対処するために、文書中の文の役割を示す構造タグとHANの使用を提案する。
文にタグを追加し、タイトル、抽象的、あるいは本文に対応するマークを付けると、学術的な文書品質予測のための最先端技術よりも改善される。
提案システムは,PeerReadデータセット上でのアクセプション/リジェクト予測のタスクに適用し,最近のBiLSTMモデルと共同テキスト+視覚モデル,および平易なHANとの比較を行った。
通常のHANと比較すると、3つの領域で精度が向上する。
計算と言語領域では、新しいモデルは全体として最もよく機能し、最良の文献結果よりも4.7%精度が向上します。
また,allen ai s2orcデータセットから集計した88kの学術論文に対して,引用数予測用のタグを導入することで,改良を行った。
構造タグを持つHANシステムでは,28.5%の分散が説明され,BiLSTMモデルの再実装よりも1.8%,通常のHANよりも1.0%向上した。
関連論文リスト
- Retrieval is Accurate Generation [104.21926758253286]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language
Model Attribution [48.92960579675478]
我々は知識認識型言語モデル属性(KaLMA)の新しいタスクを定義する。
まず、構造化されていないテキストから知識グラフ(KG)へ属性ソースを拡張する。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z) - RGAT: A Deeper Look into Syntactic Dependency Information for
Coreference Resolution [8.017036537163008]
我々は、事前学習されたBERTと構文関係グラフ注意ネットワーク(RGAT)を組み合わせたエンドツーエンドの解決法を提案する。
特に、RGATモデルが最初に提案され、次に、構文依存グラフを理解し、より優れたタスク固有の構文埋め込みを学ぶために使用される。
BERT埋め込みと構文埋め込みを組み合わせた統合アーキテクチャを構築し、下流タスクのブレンディング表現を生成する。
論文 参考訳(メタデータ) (2023-09-10T09:46:38Z) - Prompt-based Learning for Text Readability Assessment [0.5076419064097734]
可読性評価のための事前学習されたSeq2seqモデルの新規適応を提案する。
与えられた2つのテキストからより難しいテキストを区別するために、Seq2seqモデルを適用できることを実証する。
論文 参考訳(メタデータ) (2023-02-25T18:39:59Z) - Text and Code Embeddings by Contrastive Pre-Training [15.099849247795714]
教師なしデータに対する対照的な事前学習は、テキストとコードの高品質なベクトル表現につながることを示す。
線形プローブ分類における新しい最先端結果を実現するような教師なしのテキスト埋め込みも同様に、印象的なセマンティック検索機能も備えている。
論文 参考訳(メタデータ) (2022-01-24T23:36:20Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Meta-Learning Adversarial Domain Adaptation Network for Few-Shot Text
Classification [31.167424308211995]
対戦型ドメイン適応ネットワークと統合された新しいメタ学習フレームワークを提案する。
提案手法は,全データセットにおける最先端モデルよりも明らかに優れていることを示す。
特に、20のニュースグループのデータセットにおける1ショットと5ショットの分類の精度は52.1%から59.6%に向上している。
論文 参考訳(メタデータ) (2021-07-26T15:09:40Z) - Incorporating Visual Layout Structures for Scientific Text
Classification [31.15058113053433]
本研究では,VILA(Visual LAyout Structure)の新たな手法として,ページテキストをテキスト行やテキストブロックにグループ化する手法を言語モデルに導入する。
モデル入力にレイアウト構造の境界を示す特別なトークンを追加するI-VILAアプローチは、トークン分類タスクにおいて+14.5 F1のスコア改善をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2021-06-01T17:59:00Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。