Fugu-MT 論文翻訳(概要): DefSent: Sentence Embeddings using Definition Sentences

論文の概要: DefSent: Sentence Embeddings using Definition Sentences

arxiv url: http://arxiv.org/abs/2105.04339v2
Date: Tue, 11 May 2021 14:45:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-12 11:18:07.548591
Title: DefSent: Sentence Embeddings using Definition Sentences
Title（参考訳）: DefSent: 定義文を用いた文埋め込み
Authors: Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda
Abstract要約: 単語辞書から定義文を使用する文埋め込み手法であるDefSentを提案する。 DefSentは、追加のデータセットを構築することなく、NLIデータセットを使用するメソッドよりも広く適用できる。
参考スコア（独自算出の注目度）: 8.08585816311037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sentence embedding methods using natural language inference (NLI) datasets have been successfully applied to various tasks. However, these methods are only available for limited languages due to relying heavily on the large NLI datasets. In this paper, we propose DefSent, a sentence embedding method that uses definition sentences from a word dictionary. Since dictionaries are available for many languages, DefSent is more broadly applicable than methods using NLI datasets without constructing additional datasets. We demonstrate that DefSent performs comparably on unsupervised semantics textual similarity (STS) tasks and slightly better on SentEval tasks to the methods using large NLI datasets.
Abstract（参考訳）: 自然言語推論(NLI)データセットを用いた文埋め込み手法は,様々なタスクにうまく適用されている。しかし、これらの手法は大きなNLIデータセットに大きく依存するため、限られた言語でしか利用できない。本稿では,単語辞書の定義文を用いた文埋め込み法であるdefsentを提案する。多くの言語で辞書が利用できるため、DefSentは追加のデータセットを構築することなくNLIデータセットを使用するメソッドよりも広く適用できる。我々は、DefSentが教師なしセマンティクスのテキスト類似性(STS)タスクで比較可能であり、大きなNLIデータセットを用いたメソッドよりもSentEvalタスクの方が若干優れていることを示した。

関連論文リスト

Cross-Domain Bilingual Lexicon Induction via Pretrained Language Models [22.297388572921477]
本稿では、一般ドメインと対象ドメインの単言語コーパスを用いて、ドメイン固有のバイリンガル辞書を抽出するBLIの新しいタスクを提案する。事前学習モデルの能力に触発されて,BLIの最近の研究に基づいて構築された単語の埋め込みを改善する手法を提案する。実験結果から,本手法は3つの領域におけるロバストなBLIベースラインの性能を平均0.78ポイント向上させることで向上できることがわかった。
論文参考訳（メタデータ） (2025-05-29T06:37:02Z)
Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文参考訳（メタデータ） (2025-02-19T12:07:53Z)
DefSent+: Improving sentence embeddings of language models by projecting definition sentences into a quasi-isotropic or isotropic vector space of unlimited dictionary entries [5.317095505067784]
本論文は,DefSent として知られる以前の会議報告において,大幅な改善を示すものである。そこで本稿では,制約を満たさない進入埋め込みを段階的に構築する手法を提案する。その結果、定義文は無限辞書エントリの準等方的あるいは等方的ベクトル空間に投影できる。
論文参考訳（メタデータ） (2024-05-25T09:43:38Z)
Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文参考訳（メタデータ） (2023-08-04T10:21:35Z)
Learning to Infer from Unlabeled Data: A Semi-supervised Learning Approach for Robust Natural Language Inference [47.293189105900524]
自然言語推論(英: Natural Language Inference、NLI)は、一対の文(前提と仮説)の関係を、関係性、矛盾、意味的な独立性として予測することを目的としている。近年、ディープラーニングモデルはNLIに有望なパフォーマンスを示しており、大規模で高価な人型アノテートデータセットに依存している。半教師付き学習(SSL)は、トレーニングにラベルのないデータを活用することで、人間のアノテーションへの依存を減らすための一般的な手法である。
論文参考訳（メタデータ） (2022-11-05T20:34:08Z)
DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文参考訳（メタデータ） (2022-10-13T13:04:16Z)
Lacking the embedding of a word? Look it up into a traditional dictionary [0.2624902795082451]
従来の辞書で検索された定義を用いて,稀な単語に対する単語埋め込みを生成することを提案する。 DefiNNetとDefBERTは、未知の単語の埋め込みを生成するためのベースラインメソッドと同様に、最先端の手法よりも大幅に優れている。
論文参考訳（メタデータ） (2021-09-24T06:27:58Z)
DocNLI: A Large-scale Dataset for Document-level Natural Language Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文参考訳（メタデータ） (2021-06-17T13:02:26Z)
Mining Knowledge for Natural Language Inference from Wikipedia Categories [53.26072815839198]
NLIおよびLEタスクのモデル性能を改善するためのリソースであるWikiNLIを紹介する。ウィキペディアには、自然に注釈付けされたカテゴリー階層から作られた428,899の句が含まれている。我々は、BERTやRoBERTaのような強力なベースラインをWikiNLIで事前訓練し、下流タスクでモデルを転送することで改善できることを示します。
論文参考訳（メタデータ） (2020-10-03T00:45:01Z)
A Comparative Study on Structural and Semantic Properties of Sentence Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文参考訳（メタデータ） (2020-09-23T15:45:32Z)
FarsTail: A Persian Natural Language Inference Dataset [1.3048920509133808]
自然言語推論(NLI)は、自然言語処理(NLP)の中心的なタスクの一つである。我々はペルシア語でNLIタスクのための新しいデータセット(Farsiとしても知られる)を提示する。 FarsTailという名前のこのデータセットには、ペルシア語とインデックスされたフォーマットの両方で提供される10,367のサンプルが含まれている。
論文参考訳（メタデータ） (2020-09-18T13:04:04Z)
ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文参考訳（メタデータ） (2020-04-29T17:53:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。