論文の概要: Structure-Tags Improve Text Classification for Scholarly Document
Quality Prediction
- arxiv url: http://arxiv.org/abs/2005.00129v2
- Date: Thu, 17 Dec 2020 20:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:12:23.196825
- Title: Structure-Tags Improve Text Classification for Scholarly Document
Quality Prediction
- Title(参考訳): 文書品質予測のための構造タグの改善
- Authors: Gideon Maillette de Buy Wenniger, Thomas van Dongen, Eleri Aedmaa,
Herbert Teun Kruitbosch, Edwin A. Valentijn, and Lambert Schomaker
- Abstract要約: 本稿では,文書中の文の役割を示す構造タグとHANの利用を提案する。
文にタグを追加し、タイトル、抽象的、あるいは本文に対応するマークを付けると、学術的な文書品質予測のための最先端技術よりも改善される。
- 参考スコア(独自算出の注目度): 4.4641025448898475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training recurrent neural networks on long texts, in particular scholarly
documents, causes problems for learning. While hierarchical attention networks
(HANs) are effective in solving these problems, they still lose important
information about the structure of the text. To tackle these problems, we
propose the use of HANs combined with structure-tags which mark the role of
sentences in the document. Adding tags to sentences, marking them as
corresponding to title, abstract or main body text, yields improvements over
the state-of-the-art for scholarly document quality prediction. The proposed
system is applied to the task of accept/reject prediction on the PeerRead
dataset and compared against a recent BiLSTM-based model and joint
textual+visual model as well as against plain HANs. Compared to plain HANs,
accuracy increases on all three domains. On the computation and language domain
our new model works best overall, and increases accuracy 4.7% over the best
literature result. We also obtain improvements when introducing the tags for
prediction of the number of citations for 88k scientific publications that we
compiled from the Allen AI S2ORC dataset. For our HAN-system with
structure-tags we reach 28.5% explained variance, an improvement of 1.8% over
our reimplementation of the BiLSTM-based model as well as 1.0% improvement over
plain HANs.
- Abstract(参考訳): 長いテキスト、特に学術文書でのリカレントニューラルネットワークのトレーニングは、学習に問題を引き起こす。
階層的注意ネットワーク(HAN)はこれらの問題を解決するのに有効であるが、テキストの構造に関する重要な情報を失う。
これらの問題に対処するために、文書中の文の役割を示す構造タグとHANの使用を提案する。
文にタグを追加し、タイトル、抽象的、あるいは本文に対応するマークを付けると、学術的な文書品質予測のための最先端技術よりも改善される。
提案システムは,PeerReadデータセット上でのアクセプション/リジェクト予測のタスクに適用し,最近のBiLSTMモデルと共同テキスト+視覚モデル,および平易なHANとの比較を行った。
通常のHANと比較すると、3つの領域で精度が向上する。
計算と言語領域では、新しいモデルは全体として最もよく機能し、最良の文献結果よりも4.7%精度が向上します。
また,allen ai s2orcデータセットから集計した88kの学術論文に対して,引用数予測用のタグを導入することで,改良を行った。
構造タグを持つHANシステムでは,28.5%の分散が説明され,BiLSTMモデルの再実装よりも1.8%,通常のHANよりも1.0%向上した。
関連論文リスト
- Improving Embedding Accuracy for Document Retrieval Using Entity Relationship Maps and Model-Aware Contrastive Sampling [0.0]
APEX-Embedding-7Bは、7ビリオンパラメータデコーダのみのテキスト特徴抽出モデルである。
このアプローチでは2つのトレーニング手法を採用して,現実の焦点を即時的に改善する。
本モデルでは,より長いコンテキスト文書検索タスクに対して,テキスト特徴抽出における最先端の標準を新たに確立する。
論文 参考訳(メタデータ) (2024-10-08T17:36:48Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - A Weakly Supervised Data Labeling Framework for Machine Lexical Normalization in Vietnamese Social Media [1.053698976085779]
本研究では,ソーシャルメディアテキストにおける語彙正規化の課題に対処する,革新的な自動ラベリングフレームワークを提案する。
本稿では,半教師付き学習と弱監督技術を統合するフレームワークを提案する。
我々のフレームワークは、非標準語彙を標準化形式に変換することによって、生データを自動的にラベル付けする。
論文 参考訳(メタデータ) (2024-09-30T16:26:40Z) - Reducing and Exploiting Data Augmentation Noise through Meta Reweighting
Contrastive Learning for Text Classification [3.9889306957591755]
本稿では,テキスト分類タスクにおける拡張データ/サンプルを用いたディープラーニングモデルの性能向上のための新しいフレームワークを提案する。
本稿では,拡張サンプルの重み/品質情報を効果的に活用するための,新しい重み依存型列列とデキューアルゴリズムを提案する。
本フレームワークでは,テキストCNNエンコーダの平均1.6%,テキストCNNエンコーダの平均4.3%,RoBERTaベースエンコーダの平均1.4%,絶対改善の4.4%を実現している。
論文 参考訳(メタデータ) (2024-09-26T02:19:13Z) - Language Modeling with Editable External Knowledge [90.7714362827356]
本稿では,新たな文書取得時のモデル動作を改善するERASEを提案する。
ドキュメントを追加するたびに、知識ベースで他のエントリを段階的に削除または書き直します。
7-13%(Mixtral-8x7B)と6-10%(Llama-3-8B)の精度を向上する。
論文 参考訳(メタデータ) (2024-06-17T17:59:35Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Meta-Learning Adversarial Domain Adaptation Network for Few-Shot Text
Classification [31.167424308211995]
対戦型ドメイン適応ネットワークと統合された新しいメタ学習フレームワークを提案する。
提案手法は,全データセットにおける最先端モデルよりも明らかに優れていることを示す。
特に、20のニュースグループのデータセットにおける1ショットと5ショットの分類の精度は52.1%から59.6%に向上している。
論文 参考訳(メタデータ) (2021-07-26T15:09:40Z) - Incorporating Visual Layout Structures for Scientific Text
Classification [31.15058113053433]
本研究では,VILA(Visual LAyout Structure)の新たな手法として,ページテキストをテキスト行やテキストブロックにグループ化する手法を言語モデルに導入する。
モデル入力にレイアウト構造の境界を示す特別なトークンを追加するI-VILAアプローチは、トークン分類タスクにおいて+14.5 F1のスコア改善をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2021-06-01T17:59:00Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。