論文の概要: Semantic similarity estimation for domain specific data using BERT and other techniques
- arxiv url: http://arxiv.org/abs/2506.18602v1
- Date: Mon, 23 Jun 2025 13:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.988742
- Title: Semantic similarity estimation for domain specific data using BERT and other techniques
- Title(参考訳): BERTなどを用いた領域固有データの意味的類似性推定
- Authors: R. Prashanth,
- Abstract要約: 意味的類似性の推定は、自然言語処理と自然言語理解の両方において重要な研究課題である。
分析には2つの質問ペアデータセットを使用します。1つはドメイン固有の社内データセットで、もう1つはパブリックデータセットです。
BERTモデルは,他の手法に比べて優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimation of semantic similarity is an important research problem both in natural language processing and the natural language understanding, and that has tremendous application on various downstream tasks such as question answering, semantic search, information retrieval, document clustering, word-sense disambiguation and machine translation. In this work, we carry out the estimation of semantic similarity using different state-of-the-art techniques including the USE (Universal Sentence Encoder), InferSent and the most recent BERT, or Bidirectional Encoder Representations from Transformers, models. We use two question pairs datasets for the analysis, one is a domain specific in-house dataset and the other is a public dataset which is the Quora's question pairs dataset. We observe that the BERT model gave much superior performance as compared to the other methods. This should be because of the fine-tuning procedure that is involved in its training process, allowing it to learn patterns based on the training data that is used. This works demonstrates the applicability of BERT on domain specific datasets. We infer from the analysis that BERT is the best technique to use in the case of domain specific data.
- Abstract(参考訳): 意味的類似性の推定は、自然言語処理と自然言語理解の両方において重要な研究課題であり、質問応答、意味探索、情報検索、文書クラスタリング、単語センスの曖昧さ、機械翻訳など、さまざまな下流タスクに多大な影響を及ぼす。
本研究では,USE(Universal Sentence Encoder)やInferSent,最新のBERT(Bidirectional Encoder Representations from Transformer, Model)など,さまざまな最先端技術を用いて意味的類似性を推定する。
分析には2つの質問ペアデータセットを使用します。1つはドメイン固有の社内データセットで、もう1つは公開データセットで、Quoraの質問ペアデータセットです。
BERTモデルは,他の手法に比べて優れた性能を示した。
これは、トレーニングプロセスに関わる微調整手順のためであり、使用するトレーニングデータに基づいてパターンを学ぶことができる。
この研究は、BERTがドメイン固有のデータセットに適用可能であることを示す。
我々は、BERTがドメイン固有データに対して最適な手法であることを分析から推測する。
関連論文リスト
- Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Towards Efficient Methods in Medical Question Answering using Knowledge Graph Embeddings [3.944219308229571]
自然言語処理(NLP)では、機械読解(MRC)は与えられた文脈に基づいて質問に答えるタスクである。
医療領域における質問に対処するために、BioBERT、SciBERT、ChatGPTといった現代言語モデルは、膨大なドメイン内医療コーパスで訓練されている。
本稿では、そのようなドメイン固有の事前学習に頼ることなく、モデルにドメイン知識を注入するためのリソース効率のよいアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-15T21:43:46Z) - Memorization of Named Entities in Fine-tuned BERT Models [2.7623977033962936]
細調整BERTモデルにおける名前付きエンティティ記憶の程度について検討する。
細調整されたBERTは、事前訓練されたBERTモデルよりも、細調整されたデータセットに特有の名前付きエンティティを生成できないことを示す。
論文 参考訳(メタデータ) (2022-12-07T16:20:50Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - Multi-Task Attentive Residual Networks for Argument Mining [14.62200869391189]
本稿では,注目度,マルチタスク学習,アンサンブルを利用した残差アーキテクチャを提案する。
本稿では,ユーザ生成コメント,科学論文,説得エッセイの5つのコーパスについて実験的評価を行った。
論文 参考訳(メタデータ) (2021-02-24T11:35:28Z) - Fine-Tuning BERT for Sentiment Analysis of Vietnamese Reviews [0.0]
2つのデータセットの実験結果は、BERTを使用したモデルがGloVeとFastTextを使用して、他のモデルよりわずかに優れていることを示している。
提案するBERTファインチューニング法は,従来のBERTファインチューニング法よりも優れた性能を持つアモデルを生成する。
論文 参考訳(メタデータ) (2020-11-20T14:45:46Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - IDDA: a large-scale multi-domain dataset for autonomous driving [16.101248613062292]
本稿では,100以上の異なる視覚領域を持つセマンティックセグメンテーションのための大規模合成データセットを提案する。
このデータセットは、さまざまな天候や視点条件下でのトレーニングとテストデータのドメインシフトの課題に明示的に対処するために作成されている。
論文 参考訳(メタデータ) (2020-04-17T15:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。