論文の概要: DefSent: Sentence Embeddings using Definition Sentences
- arxiv url: http://arxiv.org/abs/2105.04339v2
- Date: Tue, 11 May 2021 14:45:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 11:18:07.548591
- Title: DefSent: Sentence Embeddings using Definition Sentences
- Title(参考訳): DefSent: 定義文を用いた文埋め込み
- Authors: Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda
- Abstract要約: 単語辞書から定義文を使用する文埋め込み手法であるDefSentを提案する。
DefSentは、追加のデータセットを構築することなく、NLIデータセットを使用するメソッドよりも広く適用できる。
- 参考スコア(独自算出の注目度): 8.08585816311037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence embedding methods using natural language inference (NLI) datasets
have been successfully applied to various tasks. However, these methods are
only available for limited languages due to relying heavily on the large NLI
datasets. In this paper, we propose DefSent, a sentence embedding method that
uses definition sentences from a word dictionary. Since dictionaries are
available for many languages, DefSent is more broadly applicable than methods
using NLI datasets without constructing additional datasets. We demonstrate
that DefSent performs comparably on unsupervised semantics textual similarity
(STS) tasks and slightly better on SentEval tasks to the methods using large
NLI datasets.
- Abstract(参考訳): 自然言語推論(NLI)データセットを用いた文埋め込み手法は,様々なタスクにうまく適用されている。
しかし、これらの手法は大きなNLIデータセットに大きく依存するため、限られた言語でしか利用できない。
本稿では,単語辞書の定義文を用いた文埋め込み法であるdefsentを提案する。
多くの言語で辞書が利用できるため、DefSentは追加のデータセットを構築することなくNLIデータセットを使用するメソッドよりも広く適用できる。
我々は、DefSentが教師なしセマンティクスのテキスト類似性(STS)タスクで比較可能であり、大きなNLIデータセットを用いたメソッドよりもSentEvalタスクの方が若干優れていることを示した。
関連論文リスト
- DefSent+: Improving sentence embeddings of language models by projecting definition sentences into a quasi-isotropic or isotropic vector space of unlimited dictionary entries [5.317095505067784]
本論文は,DefSent として知られる以前の会議報告において,大幅な改善を示すものである。
そこで本稿では,制約を満たさない進入埋め込みを段階的に構築する手法を提案する。
その結果、定義文は無限辞書エントリの準等方的あるいは等方的ベクトル空間に投影できる。
論文 参考訳(メタデータ) (2024-05-25T09:43:38Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - Learning to Infer from Unlabeled Data: A Semi-supervised Learning
Approach for Robust Natural Language Inference [47.293189105900524]
自然言語推論(英: Natural Language Inference、NLI)は、一対の文(前提と仮説)の関係を、関係性、矛盾、意味的な独立性として予測することを目的としている。
近年、ディープラーニングモデルはNLIに有望なパフォーマンスを示しており、大規模で高価な人型アノテートデータセットに依存している。
半教師付き学習(SSL)は、トレーニングにラベルのないデータを活用することで、人間のアノテーションへの依存を減らすための一般的な手法である。
論文 参考訳(メタデータ) (2022-11-05T20:34:08Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Lacking the embedding of a word? Look it up into a traditional
dictionary [0.2624902795082451]
従来の辞書で検索された定義を用いて,稀な単語に対する単語埋め込みを生成することを提案する。
DefiNNetとDefBERTは、未知の単語の埋め込みを生成するためのベースラインメソッドと同様に、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-09-24T06:27:58Z) - DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。
ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文 参考訳(メタデータ) (2021-06-17T13:02:26Z) - Mining Knowledge for Natural Language Inference from Wikipedia
Categories [53.26072815839198]
NLIおよびLEタスクのモデル性能を改善するためのリソースであるWikiNLIを紹介する。
ウィキペディアには、自然に注釈付けされたカテゴリー階層から作られた428,899の句が含まれている。
我々は、BERTやRoBERTaのような強力なベースラインをWikiNLIで事前訓練し、下流タスクでモデルを転送することで改善できることを示します。
論文 参考訳(メタデータ) (2020-10-03T00:45:01Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - FarsTail: A Persian Natural Language Inference Dataset [1.3048920509133808]
自然言語推論(NLI)は、自然言語処理(NLP)の中心的なタスクの一つである。
我々はペルシア語でNLIタスクのための新しいデータセット(Farsiとしても知られる)を提示する。
FarsTailという名前のこのデータセットには、ペルシア語とインデックスされたフォーマットの両方で提供される10,367のサンプルが含まれている。
論文 参考訳(メタデータ) (2020-09-18T13:04:04Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。