論文の概要: NextLevelBERT: Masked Language Modeling with Higher-Level Representations for Long Documents
- arxiv url: http://arxiv.org/abs/2402.17682v2
- Date: Thu, 13 Jun 2024 10:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 23:35:40.795524
- Title: NextLevelBERT: Masked Language Modeling with Higher-Level Representations for Long Documents
- Title(参考訳): NextLevelBERT: 長いドキュメントのための高レベル表現を用いたマスケッド言語モデリング
- Authors: Tamara Czinczoll, Christoph Hönes, Maximilian Schall, Gerard de Melo,
- Abstract要約: NextLevelBERTはトークンではなく、テキスト埋め込みという形で高レベルの意味表現を操作するMasked Language Modelである。
次世代のマスケプド言語モデリングは、ドキュメントの長いユースケースに対処するための効果的な手法であり、セマンティック情報の詳細の必要なレベルが十分でない限り、はるかに大きな埋め込みモデルよりも優れていることが分かりました。
- 参考スコア(独自算出の注目度): 17.94934249657174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While (large) language models have significantly improved over the last years, they still struggle to sensibly process long sequences found, e.g., in books, due to the quadratic scaling of the underlying attention mechanism. To address this, we propose NextLevelBERT, a Masked Language Model operating not on tokens, but on higher-level semantic representations in the form of text embeddings. We pretrain NextLevelBERT to predict the vector representation of entire masked text chunks and evaluate the effectiveness of the resulting document vectors on three types of tasks: 1) Semantic Textual Similarity via zero-shot document embeddings, 2) Long document classification, 3) Multiple-choice question answering. We find that next-level Masked Language Modeling is an effective technique to tackle long-document use cases and can outperfor much larger embedding models as long as the required level of detail of semantic information is not too fine. Our models and code are publicly available online.
- Abstract(参考訳): 言語モデルはここ数年で大幅に改善されているが、基盤となる注意機構の2次スケーリングのため、書籍などに見られる長いシーケンスの処理には相変わらず苦労している。
そこで本研究では,トークンではなく,テキスト埋め込みの形で高レベルな意味表現を操作可能なマスケッド言語モデルであるNextLevelBERTを提案する。
マスクされたテキストチャンク全体のベクトル表現を予測するためにNextLevelBERTを事前訓練し、3種類のタスクに対する文書ベクトルの有効性を評価する。
1)ゼロショット文書埋め込みによる意味的テクスト類似性
2)長期文書分類
3)複数選択質問応答。
次世代のマスケプド言語モデリングは、ドキュメントの長いユースケースに対処するための効果的な手法であり、セマンティック情報の詳細の必要なレベルが十分でない限り、はるかに大きな埋め込みモデルよりも優れていることが分かりました。
私たちのモデルとコードはオンラインで公開されています。
関連論文リスト
- Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - Understanding the Effectiveness of Very Large Language Models on Dialog
Evaluation [20.18656308749408]
大規模言語モデル (LLM) は生成に使われており、人間のようなテキストを出力することができる。
本稿では,プロンプト中のサンプル数と使用するサンプル選択の種類がモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-01-27T22:02:27Z) - Weakly Supervised Text Classification using Supervision Signals from a
Language Model [33.5830441120473]
我々は文書自体と「この記事は[MASK]について話している」ことを組み合わせたプロンプトを設計する。
マスク付き言語モデルは[MASK]トークンの単語を生成することができる。
文書の内容を要約した生成された単語を監視信号として利用することができる。
論文 参考訳(メタデータ) (2022-05-13T12:57:15Z) - Attend, Memorize and Generate: Towards Faithful Table-to-Text Generation
in Few Shots [58.404516361586325]
Few-shot table-to-text generation は、限られたデータを用いてテーブル内容を伝えるために、流動的で忠実な文を構成するタスクである。
本稿では,人間のテキスト生成プロセスに触発された新しい手法,覚醒と生成(AMG)を提案する。
論文 参考訳(メタデータ) (2022-03-01T20:37:20Z) - LAWDR: Language-Agnostic Weighted Document Representations from
Pre-trained Models [8.745407715423992]
言語間文書表現は、多言語コンテキストにおける言語理解を可能にする。
BERT、XLM、XLM-RoBERTaのような大規模な事前学習言語モデルは、文レベルの下流タスクを微調整することで大きな成功を収めた。
論文 参考訳(メタデータ) (2021-06-07T07:14:00Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Syntax-Enhanced Pre-trained Model [49.1659635460369]
BERTやRoBERTaなどの学習済みモデルを強化するために、テキストの構文構造を活用するという問題を研究する。
既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。
事前学習と微調整の両方の段階でテキストのシンタックスを利用するモデルを提示する。
論文 参考訳(メタデータ) (2020-12-28T06:48:04Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。