論文の概要: A New Sentence Ordering Method Using BERT Pretrained Model
- arxiv url: http://arxiv.org/abs/2108.11994v1
- Date: Thu, 26 Aug 2021 18:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 23:20:31.606854
- Title: A New Sentence Ordering Method Using BERT Pretrained Model
- Title(参考訳): BERT事前学習モデルを用いた新しい文順序付け手法
- Authors: Melika Golestani, Seyedeh Zahra Razavi, and Heshaam Faili
- Abstract要約: 本稿では,訓練段階を必要とせず,学習のための大きなコーパスを必要とする文順序付け手法を提案する。
提案手法は,5文ストーリーのコーパスであるROCStoriesの他のベースラインよりも優れていた。
この方法の他の利点の1つは、言語知識に対する解釈可能性と不要性である。
- 参考スコア(独自算出の注目度): 2.1793134762413433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building systems with capability of natural language understanding (NLU) has
been one of the oldest areas of AI. An essential component of NLU is to detect
logical succession of events contained in a text. The task of sentence ordering
is proposed to learn succession of events with applications in AI tasks. The
performance of previous works employing statistical methods is poor, while the
neural networks-based approaches are in serious need of large corpora for model
learning. In this paper, we propose a method for sentence ordering which does
not need a training phase and consequently a large corpus for learning. To this
end, we generate sentence embedding using BERT pre-trained model and measure
sentence similarity using cosine similarity score. We suggest this score as an
indicator of sequential events' level of coherence. We finally sort the
sentences through brute-force search to maximize overall similarities of the
sequenced sentences. Our proposed method outperformed other baselines on
ROCStories, a corpus of 5-sentence human-made stories. The method is
specifically more efficient than neural network-based methods when no huge
corpus is available. Among other advantages of this method are its
interpretability and needlessness to linguistic knowledge.
- Abstract(参考訳): 自然言語理解能力(NLU)を備えたシステムの構築は、AIの最も古い領域の1つである。
NLUの重要な構成要素は、テキストに含まれるイベントの論理的継承を検出することである。
文順序付けのタスクは、AIタスクに応用されたイベントの継承を学習するために提案される。
統計的手法を用いた先行研究のパフォーマンスは低いが、ニューラルネットワークベースのアプローチはモデル学習のための大きなコーパスを必要としている。
本稿では,訓練段階を必要とせず,学習のための大きなコーパスを必要とする文順序付け手法を提案する。
この目的のために,bert事前学習モデルを用いて文埋め込みを生成し,コサイン類似度スコアを用いて文類似度を測定する。
逐次事象のコヒーレンスレベルを示す指標として,このスコアを提案する。
最終的に文をブルートフォース検索によってソートし、シーケンスされた文の全体的な類似性を最大化する。
提案手法は,5文ストーリーのコーパスであるROCStoriesの他のベースラインよりも優れていた。
この方法は、巨大なコーパスが利用できない場合、ニューラルネットワークベースの手法よりも特に効率的である。
この方法の他の利点は、言語知識に対する解釈可能性と無意味さである。
関連論文リスト
- Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文 参考訳(メタデータ) (2023-02-06T20:13:11Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Reweighting Strategy based on Synthetic Data Identification for Sentence
Similarity [30.647497555295974]
機械で書かれた文章を識別する分類器を訓練し、機械で書かれた文章の言語的特徴が人間の文章と大きく異なることを観察する。
次に、分類器からの蒸留情報を用いて、信頼性のある文埋め込みモデルを訓練する。
合成データに基づいてトレーニングしたモデルでは,既存のベースラインよりも良く一般化し,性能が向上する。
論文 参考訳(メタデータ) (2022-08-29T05:42:22Z) - Using BERT Encoding and Sentence-Level Language Model for Sentence
Ordering [0.9134244356393667]
本稿では,短い記事のコーパスにおける文順序付けのアルゴリズムを提案する。
提案手法では,アテンション機構を用いて文の依存関係をキャプチャするUniversal Transformer (UT) に基づく言語モデルを用いる。
提案モデルには文、言語モデル、Brute Force Searchによる文配列の3つのコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-08-24T23:03:36Z) - InsertGNN: Can Graph Neural Networks Outperform Humans in TOEFL Sentence
Insertion Problem? [66.70154236519186]
センテンス挿入は繊細だが基本的なNLP問題である。
文順序付け、テキストコヒーレンス、質問応答(QA)の現在のアプローチは、その解決には適さない。
本稿では,この問題をグラフとして表現し,グラフニューラルネットワーク(GNN)を用いて文間の関係を学習するモデルであるInsertGNNを提案する。
論文 参考訳(メタデータ) (2021-03-28T06:50:31Z) - Learning a Word-Level Language Model with Sentence-Level Noise
Contrastive Estimation for Contextual Sentence Probability Estimation [3.1040192682787415]
文や単語列の確率分布を推測することは自然言語処理の重要なプロセスである。
単語レベルの言語モデル(LM)は、単語列の共同確率を計算するために広く採用されているが、文確率推定(SPE)に十分長いコンテキストの取得が困難である。
最近の研究は、リカレントニューラルネットワーク(RNN)を用いた文レベルノイズコントラスト推定(NCE)を用いたトレーニング手法を導入している。
本手法を単純な単語レベルのRNN LMに適用し,ネットワークアーキテクチャではなく文レベルのNCEトレーニングの効果に着目した。
論文 参考訳(メタデータ) (2021-03-14T09:17:37Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z) - Toward Better Storylines with Sentence-Level Language Models [54.91921545103256]
本稿では,文章中の次の文を選択する文レベル言語モデルを提案する。
教師なしストーリークローゼタスクにおける最先端の精度によるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-11T16:54:19Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。