論文の概要: SkIn: Skimming-Intensive Long-Text Classification Based on BERT and
Application to Medical Corpus
- arxiv url: http://arxiv.org/abs/2209.05741v1
- Date: Tue, 13 Sep 2022 05:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:10:59.556995
- Title: SkIn: Skimming-Intensive Long-Text Classification Based on BERT and
Application to Medical Corpus
- Title(参考訳): SkIn:BERTに基づくスキー集中型長文分類と医療コーパスへの応用
- Authors: Yufeng Zhao, Haiying Che
- Abstract要約: BERTモデルは、長文コーパスで直接使用するのは難しい。
スキー・集中モデル(スキー・集中モデル、SkIn)は、長い段落を読む際にヒトが使用するスキミング・集中的な読書法を模倣する。
SkIn法は医療分野における長文分類データセットのベースラインよりも優れた結果を得た。
- 参考スコア(独自算出の注目度): 2.223471550074807
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: BERT is a widely used pre-trained model in natural language processing.
However, because its time and space requirements increase with a quadratic
level of the text length, the BERT model is difficult to use directly on the
long-text corpus. The collected text data is usually quite long in some fields,
such as health care. Therefore, to apply the pre-trained language knowledge of
BERT to long text, in this paper, imitating the skimming-intensive reading
method used by humans when reading a long paragraph, the Skimming-Intensive
Model (SkIn) is proposed. It can dynamically select the critical information in
the text so that the length of the input into the BERT-Base model is
significantly reduced, which can effectively save the cost of the
classification algorithm. Experiments show that the SkIn method has achieved
better results than the baselines on long-text classification datasets in the
medical field, while its time and space requirements increase linearly with the
text length, alleviating the time and space overflow problem of BERT on
long-text data.
- Abstract(参考訳): BERTは自然言語処理において広く使われている事前訓練モデルである。
しかしながら、その時間と空間の要求はテキスト長の2次レベルで増加するため、bertモデルは長文コーパスで直接使用するのが困難である。
収集されたテキストデータは通常、医療などいくつかの分野でかなり長い。
そこで本論文では,長い段落を読む際にヒトが用いたスイミング集約読解法を模倣して,BERTの事前学習言語知識を長文に適用するために,SkIn(Skimming-Intensive Model)を提案する。
BERT-Baseモデルへの入力の長さが大幅に削減され、分類アルゴリズムのコストを効果的に削減できるように、テキスト内の臨界情報を動的に選択することができる。
スキン法は医学分野における長文分類データセットのベースラインよりも優れた結果を得たが、その時間と空間の要求は長文データ上のbertの時間と空間のオーバーフロー問題を軽減するために、テキスト長と線形に増加する。
関連論文リスト
- Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - Summarization-based Data Augmentation for Document Classification [16.49709049899731]
文書分類のための簡易かつ効果的な要約型データ拡張であるSUMMaugを提案する。
まず、対象文書分類タスクの学習が容易な例を示す。
次に、生成された擬似例を用いてカリキュラム学習を行う。
論文 参考訳(メタデータ) (2023-12-01T11:34:37Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition [27.280917081410955]
LISTER (Longth-Insensitive Scene TExt Recognizer) という手法を提案する。
隣接デコーダを提案し, 隣り合う新しい行列の助けを借りて, 正確なキャラクタアテンションマップを得る。
機能拡張モジュールは、低コストで長距離依存性をモデル化するために設計されている。
論文 参考訳(メタデータ) (2023-08-24T13:26:18Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Reinforced Abstractive Summarization with Adaptive Length Controlling [12.793451906532223]
制御可能な要約、特に長さは、いくつかの実用的な応用において重要な問題である。
2段階の抽象的要約モデルを活用するために、textbfAdaptive textbfLength textbfControlling textbfOptimization (textbfALCO)法を提案する。
論文 参考訳(メタデータ) (2021-12-14T16:48:47Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。