論文の概要: Leveraging BERT Language Model for Arabic Long Document Classification
- arxiv url: http://arxiv.org/abs/2305.03519v1
- Date: Thu, 4 May 2023 13:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 13:51:47.425506
- Title: Leveraging BERT Language Model for Arabic Long Document Classification
- Title(参考訳): アラビア長文書分類のためのBERT言語モデルの活用
- Authors: Muhammad AL-Qurishi
- Abstract要約: 長いアラビア文書を分類する2つのモデルを提案する。
どちらのモデルも、このタスクでLongformerとRoBERTを2つの異なるデータセットで上回ります。
- 参考スコア(独自算出の注目度): 0.47138177023764655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the number of Arabic speakers worldwide and the notably large amount of
content in the web today in some fields such as law, medicine, or even news,
documents of considerable length are produced regularly. Classifying those
documents using traditional learning models is often impractical since extended
length of the documents increases computational requirements to an
unsustainable level. Thus, it is necessary to customize these models
specifically for long textual documents. In this paper we propose two simple
but effective models to classify long length Arabic documents. We also
fine-tune two different models-namely, Longformer and RoBERT, for the same task
and compare their results to our models. Both of our models outperform the
Longformer and RoBERT in this task over two different datasets.
- Abstract(参考訳): 世界中でアラビア語話者の数が増加し、法律、医学、ニュースなどいくつかの分野でウェブで顕著な量のコンテンツが使われていることから、かなりの長さの文書が定期的に作成されている。
従来の学習モデルを用いて文書を分類することは、文書の長さを延ばすことで計算の要件が持続不可能になるため、しばしば実用的ではない。
したがって、これらモデルを長文文書用に特別にカスタマイズする必要がある。
本稿では,アラビア語の長文文書を分類する2つの簡易かつ効果的なモデルを提案する。
また、同じタスクに対してLongformerとRoBERTという2つの異なるモデルを微調整し、その結果を我々のモデルと比較します。
どちらのモデルも、このタスクでLongformerとRoBERTを2つの異なるデータセットで上回ります。
関連論文リスト
- M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework [75.95430061891828]
851サンプルのベンチマークであるM-LongDocと、大規模マルチモーダルモデルの性能を評価するための自動フレームワークを紹介する。
効率的なマルチモーダル文書読解のための検索対応チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-11-09T13:30:38Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Language Resources for Dutch Large Language Modelling [0.0]
Llama 2 13Bモデルの微調整版を2種類導入する。
我々は、複数の世代タスクにおける(Dutch)モデルのパフォーマンスを追跡するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2023-12-20T09:06:06Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - HeRo: RoBERTa and Longformer Hebrew Language Models [0.0]
我々は、標準長入力のための最先端の事前訓練言語モデルHeRoと、長入力シーケンスのための効率的な変換器LongHeRoを提供する。
HeRoモデルは、感情分析、名前付きエンティティ認識、質問応答タスクに基づいて評価された。
長い文書からなるデータセットを用いて,文書分類作業においてLongHeRoモデルを評価した。
論文 参考訳(メタデータ) (2023-04-18T05:56:32Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Longtonotes: OntoNotes with Longer Coreference Chains [111.73115731999793]
コア参照アノテートされたドキュメントのコーパスを,現在利用可能なものよりもはるかに長い長さで構築する。
結果として得られたコーパスはLongtoNotesと呼ばれ、様々な長さの英語の複数のジャンルの文書を含んでいる。
この新しいコーパスを用いて,最先端のニューラルコアシステムの評価を行った。
論文 参考訳(メタデータ) (2022-10-07T15:58:41Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z) - LAWDR: Language-Agnostic Weighted Document Representations from
Pre-trained Models [8.745407715423992]
言語間文書表現は、多言語コンテキストにおける言語理解を可能にする。
BERT、XLM、XLM-RoBERTaのような大規模な事前学習言語モデルは、文レベルの下流タスクを微調整することで大きな成功を収めた。
論文 参考訳(メタデータ) (2021-06-07T07:14:00Z) - Introducing various Semantic Models for Amharic: Experimentation and
Evaluation with multiple Tasks and Datasets [19.855120632909124]
我々はAmharicの異なるセマンティックモデルを導入する。
モデルは word2Vec 埋め込み、分散シソーラス (DT)、コンテキスト埋め込み、DT 埋め込みを使って構築される。
新たに訓練されたモデルは、事前訓練された多言語モデルよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-02T17:48:25Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。