論文の概要: HeRo: RoBERTa and Longformer Hebrew Language Models
- arxiv url: http://arxiv.org/abs/2304.11077v1
- Date: Tue, 18 Apr 2023 05:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-30 08:07:36.272068
- Title: HeRo: RoBERTa and Longformer Hebrew Language Models
- Title(参考訳): HeRo:RoBERTaとLongformer Hebrew言語モデル
- Authors: Vitaly Shalumov and Harel Haskey
- Abstract要約: 我々は、標準長入力のための最先端の事前訓練言語モデルHeRoと、長入力シーケンスのための効率的な変換器LongHeRoを提供する。
HeRoモデルは、感情分析、名前付きエンティティ認識、質問応答タスクに基づいて評価された。
長い文書からなるデータセットを用いて,文書分類作業においてLongHeRoモデルを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we fill in an existing gap in resources available to the
Hebrew NLP community by providing it with the largest so far pre-train dataset
HeDC4, a state-of-the-art pre-trained language model HeRo for standard length
inputs and an efficient transformer LongHeRo for long input sequences. The HeRo
model was evaluated on the sentiment analysis, the named entity recognition,
and the question answering tasks while the LongHeRo model was evaluated on the
document classification task with a dataset composed of long documents. Both
HeRo and LongHeRo presented state-of-the-art performance. The dataset and model
checkpoints used in this work are publicly available.
- Abstract(参考訳): 本稿では,ヘブライのNLPコミュニティで利用可能なリソースのギャップを埋めるために,これまでで最大規模の事前学習データセットHeDC4,標準長入力のための最先端事前学習言語モデルHeRo,長入力シーケンスのための効率的な変換器LongHeRoを提供する。
HeRoモデルは、感情分析、名前付きエンティティ認識、質問応答タスクに基づいて評価され、LongHeRoモデルは長い文書からなるデータセットを用いて文書分類タスクに対して評価された。
HeRoとLongHeRoはいずれも最先端のパフォーマンスを示した。
この作業で使用されるデータセットとモデルチェックポイントが公開されている。
関連論文リスト
- How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - Lost in the Middle: How Language Models Use Long Contexts [88.78803442320246]
本研究では,言語モデルの性能を2つのタスクで解析する。
関連する情報の位置を変えると,性能が著しく低下することがわかった。
我々の分析は、言語モデルが入力コンテキストをどのように使用するかをよりよく理解し、将来の長文言語モデルのための新しい評価プロトコルを提供する。
論文 参考訳(メタデータ) (2023-07-06T17:54:11Z) - Leveraging BERT Language Model for Arabic Long Document Classification [0.47138177023764655]
長いアラビア文書を分類する2つのモデルを提案する。
どちらのモデルも、このタスクでLongformerとRoBERTを2つの異なるデータセットで上回ります。
論文 参考訳(メタデータ) (2023-05-04T13:56:32Z) - Finding the Needle in a Haystack: Unsupervised Rationale Extraction from
Long Text Classifiers [20.10172411803626]
本稿では,RoBERTaを文的に適用し,トークンレベルで有意な有理を抽出する構成的ソフトアテンションアーキテクチャを提案する。
本手法は,感情分類データセットに基づいて,Longformer駆動のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-03-14T15:45:35Z) - LoRaLay: A Multilingual and Multimodal Dataset for Long Range and
Layout-Aware Summarization [19.301567079372436]
テキスト要約は、自然言語処理コミュニティにとって人気のある課題であり、研究の活発な領域である。
すべての公開可能な要約データセットは、プレーンテキストコンテンツのみを提供する。
視覚/レイ情報を伴う長距離要約のためのデータセットのコレクションであるLoRaLayを提示する。
論文 参考訳(メタデータ) (2023-01-26T18:50:54Z) - Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。
長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T00:41:07Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Longformer: The Long-Document Transformer [40.18988262517733]
トランスフォーマーベースのモデルでは、シーケンス長と2次スケールの自己アテンション操作のため、長いシーケンスを処理できない。
我々はLongformerを導入し、シーケンス長と線形にスケールするアテンション機構を導入し、何千ものトークンの文書を簡単に処理できるようにした。
Longformerのアテンションメカニズムは、標準的な自己アテンションをドロップインで置き換えることであり、ローカルなウインドウのアテンションと、グローバルなアテンションを動機付けるタスクを組み合わせたものである。
論文 参考訳(メタデータ) (2020-04-10T17:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。