論文の概要: NextLevelBERT: Investigating Masked Language Modeling with Higher-Level
Representations for Long Documents
- arxiv url: http://arxiv.org/abs/2402.17682v1
- Date: Tue, 27 Feb 2024 16:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:27:49.573424
- Title: NextLevelBERT: Investigating Masked Language Modeling with Higher-Level
Representations for Long Documents
- Title(参考訳): NextLevelBERT: 長いドキュメントのための高レベル表現を用いたマスク言語モデリングの検討
- Authors: Tamara Czinczoll, Christoph H\"ones, Maximilian Schall, Gerard de Melo
- Abstract要約: 我々は,トークンではなく,テキスト埋め込みの形で高レベルな意味表現を操作できるマスケッド言語モデルであるNextLevelBERTを提案する。
次のレベルのMasked Language Modelingは、ドキュメントの長いユースケースに対処するための効果的なテクニックであり、必要な詳細レベルが高すぎる限り、はるかに大きな埋め込みモデルより優れていることが分かりました。
- 参考スコア(独自算出の注目度): 19.60836720553159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While (large) language models have significantly improved over the last
years, they still struggle to sensibly process long sequences found, e.g., in
books, due to the quadratic scaling of the underlying attention mechanism. To
address this, we propose NextLevelBERT, a Masked Language Model operating not
on tokens, but on higher-level semantic representations in the form of text
embeddings. We pretrain NextLevelBERT to predict the vector representation of
entire masked text chunks and evaluate the effectiveness of the resulting
document vectors on three task types: 1) Semantic Textual Similarity via
zero-shot document embeddings, 2) Long document classification, 3)
Multiple-choice question answering. We find that next level Masked Language
Modeling is an effective technique to tackle long-document use cases and can
outperform much larger embedding models as long as the required level of detail
is not too high. We make model and code available.
- Abstract(参考訳): 大規模な)言語モデルはここ数年で大幅に改善されているが、基盤となる注意機構の2次スケーリングによって、書籍などで発見された長いシーケンスをセンシティブに処理するのに苦労している。
そこで本研究では,トークンではなく,テキスト埋め込みの形で高レベルの意味表現を操作可能なマスケッド言語モデルであるNextLevelBERTを提案する。
マスクされたテキストチャンク全体のベクトル表現を予測するためにNextLevelBERTを事前訓練し、3種類のタスクに対して得られた文書ベクトルの有効性を評価する。
1)ゼロショット文書埋め込みによる意味テキストの類似性
2) 長期文書分類
3)マルチチョイス質問応答。
次のレベルのマスク付き言語モデリングは、ドキュメントの長大なユースケースに取り組む効果的なテクニックであり、必要な詳細レベルがあまり高くない場合は、より大きな埋め込みモデルを上回ることが出来ます。
モデルとコードは利用可能です。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - Understanding the Effectiveness of Very Large Language Models on Dialog
Evaluation [20.18656308749408]
大規模言語モデル (LLM) は生成に使われており、人間のようなテキストを出力することができる。
本稿では,プロンプト中のサンプル数と使用するサンプル選択の種類がモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-01-27T22:02:27Z) - Weakly Supervised Text Classification using Supervision Signals from a
Language Model [33.5830441120473]
我々は文書自体と「この記事は[MASK]について話している」ことを組み合わせたプロンプトを設計する。
マスク付き言語モデルは[MASK]トークンの単語を生成することができる。
文書の内容を要約した生成された単語を監視信号として利用することができる。
論文 参考訳(メタデータ) (2022-05-13T12:57:15Z) - Attend, Memorize and Generate: Towards Faithful Table-to-Text Generation
in Few Shots [58.404516361586325]
Few-shot table-to-text generation は、限られたデータを用いてテーブル内容を伝えるために、流動的で忠実な文を構成するタスクである。
本稿では,人間のテキスト生成プロセスに触発された新しい手法,覚醒と生成(AMG)を提案する。
論文 参考訳(メタデータ) (2022-03-01T20:37:20Z) - LAWDR: Language-Agnostic Weighted Document Representations from
Pre-trained Models [8.745407715423992]
言語間文書表現は、多言語コンテキストにおける言語理解を可能にする。
BERT、XLM、XLM-RoBERTaのような大規模な事前学習言語モデルは、文レベルの下流タスクを微調整することで大きな成功を収めた。
論文 参考訳(メタデータ) (2021-06-07T07:14:00Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。