論文の概要: Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to
Corpus Exploration
- arxiv url: http://arxiv.org/abs/2109.06304v1
- Date: Mon, 13 Sep 2021 20:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 06:13:11.568154
- Title: Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to
Corpus Exploration
- Title(参考訳): Phrase-BERT: BERTによるPhrase Embeddingsの改良とコーパス探索への応用
- Authors: Shufan Wang and Laure Thompson and Mohit Iyyer
- Abstract要約: 我々は,BERTがより強力なフレーズ埋め込みを生成可能な,対照的な微調整対象を提案する。
提案手法は,パラフレーズ生成モデルを用いて自動生成される多種多様なパラフレーズのデータセットに依存する。
ケーススタディでは、フレーズベースのニューラルトピックモデルを構築するために、Phrase-BERT埋め込みを単純なオートエンコーダと簡単に統合できることが示されている。
- 参考スコア(独自算出の注目度): 25.159601117722936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phrase representations derived from BERT often do not exhibit complex phrasal
compositionality, as the model relies instead on lexical similarity to
determine semantic relatedness. In this paper, we propose a contrastive
fine-tuning objective that enables BERT to produce more powerful phrase
embeddings. Our approach (Phrase-BERT) relies on a dataset of diverse phrasal
paraphrases, which is automatically generated using a paraphrase generation
model, as well as a large-scale dataset of phrases in context mined from the
Books3 corpus. Phrase-BERT outperforms baselines across a variety of
phrase-level similarity tasks, while also demonstrating increased lexical
diversity between nearest neighbors in the vector space. Finally, as a case
study, we show that Phrase-BERT embeddings can be easily integrated with a
simple autoencoder to build a phrase-based neural topic model that interprets
topics as mixtures of words and phrases by performing a nearest neighbor search
in the embedding space. Crowdsourced evaluations demonstrate that this
phrase-based topic model produces more coherent and meaningful topics than
baseline word and phrase-level topic models, further validating the utility of
Phrase-BERT.
- Abstract(参考訳): BERTから派生したフレーズ表現は、そのモデルが意味的関連性を決定するために語彙的類似性に依存するため、複雑なフレーズ構成性を持たないことが多い。
本稿では,BERTがより強力なフレーズ埋め込みを実現するための,コントラスト的な微調整手法を提案する。
本手法(Phrase-BERT)は, パラフレーズ生成モデルを用いて自動生成する多様なパラフレーズのデータセットと, Books3コーパスから抽出した文脈におけるフレーズの大規模データセットに依存する。
Phrase-BERTは、様々なフレーズレベルの類似性タスクでベースラインを上回り、ベクトル空間に最も近い隣人の間で語彙の多様性を増す。
最後に,Phrase-BERT埋め込みは簡単なオートエンコーダと簡単に統合でき,埋め込み空間で近接探索を行うことで,話題を単語とフレーズの混合として解釈するフレーズベースのニューラルトピックモデルを構築することができることを示す。
クラウドソースによる評価では、このフレーズベースのトピックモデルは、ベースライン語やフレーズレベルのトピックモデルよりも一貫性と意味のあるトピックを生成し、さらにPhrase-BERTの有用性を検証する。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Neural paraphrasing by automatically crawled and aligned sentence pairs [11.95795974003684]
ニューラルネットワークベースのパラフレーズ化に対する主な障害は、一致した文とパラフレーズのペアを持つ大きなデータセットの欠如である。
本稿では,ニュースサイトやブログサイトが,異なる物語スタイルを用いて同じ出来事を語るという仮定に基づいて,大規模コーパスの自動生成手法を提案する。
本稿では,言語制約のある類似性探索手法を提案する。これは,参照文が与えられた場合,数百万のインデックス付き文から最も類似した候補パラフレーズを見つけることができる。
論文 参考訳(メタデータ) (2024-02-16T10:40:38Z) - ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR
Back-Translation [59.91139600152296]
ParaAMRは、抽象的な表現のバックトランスレーションによって生成される、大規模な構文的に多様なパラフレーズデータセットである。
そこで本研究では,ParaAMRを用いて文の埋め込み学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という,3つのNLPタスクを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-26T02:27:33Z) - Approximate Nearest Neighbour Phrase Mining for Contextual Speech
Recognition [5.54562323810107]
我々は、コンテキストエンコーダの潜在空間からハードネガティブなフレーズを抽出する単純かつ効率的な方法を用いて、エンドツーエンドのコンテキスト対応トランスデューサ(CATT)モデルを訓練する。
トレーニング中、参照クエリーを考慮し、近い近傍探索を用いて類似したフレーズを多数マイニングする。
これらのサンプルフレーズは、ランダムな真理と基底的な文脈情報と共にコンテキストリストの負の例として使用される。
論文 参考訳(メタデータ) (2023-04-18T09:52:11Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。