論文の概要: Using BERT Encoding and Sentence-Level Language Model for Sentence
Ordering
- arxiv url: http://arxiv.org/abs/2108.10986v1
- Date: Tue, 24 Aug 2021 23:03:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 22:15:54.070545
- Title: Using BERT Encoding and Sentence-Level Language Model for Sentence
Ordering
- Title(参考訳): BERTエンコーディングと文レベル言語モデルを用いた文順序付け
- Authors: Melika Golestani, Seyedeh Zahra Razavi, Zeinab Borhanifard, Farnaz
Tahmasebian, and Hesham Faili
- Abstract要約: 本稿では,短い記事のコーパスにおける文順序付けのアルゴリズムを提案する。
提案手法では,アテンション機構を用いて文の依存関係をキャプチャするUniversal Transformer (UT) に基づく言語モデルを用いる。
提案モデルには文、言語モデル、Brute Force Searchによる文配列の3つのコンポーネントが含まれている。
- 参考スコア(独自算出の注目度): 0.9134244356393667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discovering the logical sequence of events is one of the cornerstones in
Natural Language Understanding. One approach to learn the sequence of events is
to study the order of sentences in a coherent text. Sentence ordering can be
applied in various tasks such as retrieval-based Question Answering, document
summarization, storytelling, text generation, and dialogue systems.
Furthermore, we can learn to model text coherence by learning how to order a
set of shuffled sentences. Previous research has relied on RNN, LSTM, and
BiLSTM architecture for learning text language models. However, these networks
have performed poorly due to the lack of attention mechanisms. We propose an
algorithm for sentence ordering in a corpus of short stories. Our proposed
method uses a language model based on Universal Transformers (UT) that captures
sentences' dependencies by employing an attention mechanism. Our method
improves the previous state-of-the-art in terms of Perfect Match Ratio (PMR)
score in the ROCStories dataset, a corpus of nearly 100K short human-made
stories. The proposed model includes three components: Sentence Encoder,
Language Model, and Sentence Arrangement with Brute Force Search. The first
component generates sentence embeddings using SBERT-WK pre-trained model
fine-tuned on the ROCStories data. Then a Universal Transformer network
generates a sentence-level language model. For decoding, the network generates
a candidate sentence as the following sentence of the current sentence. We use
cosine similarity as a scoring function to assign scores to the candidate
embedding and the embeddings of other sentences in the shuffled set. Then a
Brute Force Search is employed to maximize the sum of similarities between
pairs of consecutive sentences.
- Abstract(参考訳): 事象の論理列の発見は、自然言語理解の基盤の1つである。
イベントのシーケンスを学ぶ一つのアプローチは、コヒーレントなテキストで文の順序を研究することである。
文の順序付けは、検索に基づく質問回答、文書要約、ストーリーテリング、テキスト生成、対話システムなど、さまざまなタスクに適用できる。
さらに、シャッフル文の順序を学習することで、テキストコヒーレンスをモデル化することを学ぶことができる。
これまでの研究は、RNN、LSTM、BiLSTMアーキテクチャを使ってテキスト言語モデルを学習してきた。
しかし、これらのネットワークは注意機構の欠如により性能が悪くなっている。
本稿では,短い記事のコーパスにおける文順序付けアルゴリズムを提案する。
提案手法では,アテンション機構を用いて文の依存関係をキャプチャするUniversal Transformer (UT) に基づく言語モデルを用いる。
提案手法は,約100万件の短い人造ストーリーのコーパスであるROCStoriesデータセットにおけるPMR(Perfect Match Ratio)スコアの点から,過去の最先端技術を改善する。
提案するモデルには,Sentence Encoder,Language Model,Sentence Arrangement with Brute Force Searchの3つのコンポーネントが含まれている。
第1成分は、ROCStoriesデータに基づいて微調整されたSBERT-WK事前学習モデルを用いて文埋め込みを生成する。
そして、ユニバーサルトランスフォーマーネットワークが文レベル言語モデルを生成する。
復号化のために、ネットワークは、現在の文の次の文として候補文を生成する。
我々はコサイン類似性をスコア関数として使用し、他の文をシャッフルセットに埋め込んだ候補にスコアを割り当てる。
次に、連続した文のペア間の類似度の総和を最大化するためにブルートフォース探索を用いる。
関連論文リスト
- Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Hierarchical Phrase-based Sequence-to-Sequence Learning [94.10257313923478]
本稿では、学習中の帰納バイアスの源として階層的フレーズを取り入れ、推論中の明示的な制約として、標準的なシーケンス・ツー・シーケンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。
本手法では,木が原文と対象句を階層的に整列するブラケット文法に基づく識別的導出法と,整列した句を1対1で翻訳するニューラルネットワークセク2セックモデルという2つのモデルを訓練する。
論文 参考訳(メタデータ) (2022-11-15T05:22:40Z) - Suffix Retrieval-Augmented Language Modeling [1.8710230264817358]
因果語モデリング(LM)は単語履歴を用いて次の単語を予測する。
一方,BERTは文中の双方向の単語情報を用いて,マスキング位置での単語の予測を行う。
本稿では,双方向の文脈効果を自己回帰的にシミュレートする新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-11-06T07:53:19Z) - Reweighting Strategy based on Synthetic Data Identification for Sentence
Similarity [30.647497555295974]
機械で書かれた文章を識別する分類器を訓練し、機械で書かれた文章の言語的特徴が人間の文章と大きく異なることを観察する。
次に、分類器からの蒸留情報を用いて、信頼性のある文埋め込みモデルを訓練する。
合成データに基づいてトレーニングしたモデルでは,既存のベースラインよりも良く一般化し,性能が向上する。
論文 参考訳(メタデータ) (2022-08-29T05:42:22Z) - Pruned Graph Neural Network for Short Story Ordering [0.7087237546722617]
コヒーレンスを最大化する順序に文を整理することは、文の順序付けとして知られている。
そこで本研究では,文章間のエッジを生成するために,短い物語の文中心グラフを構築する手法を提案する。
また,代名詞を代名詞の代名詞に置き換えることによって,文中心性グラフの文を効果的にエンコードすることが観察された。
論文 参考訳(メタデータ) (2022-03-13T22:25:17Z) - A New Sentence Ordering Method Using BERT Pretrained Model [2.1793134762413433]
本稿では,訓練段階を必要とせず,学習のための大きなコーパスを必要とする文順序付け手法を提案する。
提案手法は,5文ストーリーのコーパスであるROCStoriesの他のベースラインよりも優れていた。
この方法の他の利点の1つは、言語知識に対する解釈可能性と不要性である。
論文 参考訳(メタデータ) (2021-08-26T18:47:15Z) - Three Sentences Are All You Need: Local Path Enhanced Document Relation
Extraction [54.95848026576076]
本稿では,文書レベルREのエビデンス文を選択するための,恥ずかしいほど単純だが効果的な方法を提案する。
私たちはhttps://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need.comでコードを公開しました。
論文 参考訳(メタデータ) (2021-06-03T12:29:40Z) - Reformulating Sentence Ordering as Conditional Text Generation [17.91448517871621]
文順序フレームワークであるReorder-BART(RE-BART)を紹介します。
タスクを条件付きテキスト-マーカー生成設定として再構成します。
私たちのフレームワークは、Perfect Match Ratio(PMR)とKendallのtau($tau$)メトリックの6つのデータセットにわたる最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-14T18:16:47Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - Toward Better Storylines with Sentence-Level Language Models [54.91921545103256]
本稿では,文章中の次の文を選択する文レベル言語モデルを提案する。
教師なしストーリークローゼタスクにおける最先端の精度によるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-11T16:54:19Z) - Fact-aware Sentence Split and Rephrase with Permutation Invariant
Training [93.66323661321113]
Sentence Split と Rephrase は、複雑な文をいくつかの単純な文に分解し、その意味を保存することを目的としている。
従来の研究では、パラレル文対からのSeq2seq学習によってこの問題に対処する傾向があった。
本稿では,この課題に対するSeq2seq学習における順序分散の効果を検証するために,置換訓練を導入する。
論文 参考訳(メタデータ) (2020-01-16T07:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。