論文の概要: Revealing the Blind Spot of Sentence Encoder Evaluation by HEROS
- arxiv url: http://arxiv.org/abs/2306.05083v1
- Date: Thu, 8 Jun 2023 10:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 14:54:17.534523
- Title: Revealing the Blind Spot of Sentence Encoder Evaluation by HEROS
- Title(参考訳): 英雄による文エンコーダ評価の盲点を明らかにする
- Authors: Cheng-Han Chiang, Yung-Sung Chuang, James Glass, Hung-yi Lee
- Abstract要約: 文エンコーダ(SE)が類似する文ペアの種類は明らかでない。
HEROSは、ある規則に基づいて原文を新しい文に変換し、テキスト最小対を形成することによって構築される
HEROS上の60以上の教師なしSEの性能を体系的に比較することにより,ほとんどの教師なしエンコーダが否定に敏感であることを明らかにする。
- 参考スコア(独自算出の注目度): 68.34155010428941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing sentence textual similarity benchmark datasets only use a single
number to summarize how similar the sentence encoder's decision is to humans'.
However, it is unclear what kind of sentence pairs a sentence encoder (SE)
would consider similar. Moreover, existing SE benchmarks mainly consider
sentence pairs with low lexical overlap, so it is unclear how the SEs behave
when two sentences have high lexical overlap. We introduce a high-quality SE
diagnostic dataset, HEROS. HEROS is constructed by transforming an original
sentence into a new sentence based on certain rules to form a \textit{minimal
pair}, and the minimal pair has high lexical overlaps. The rules include
replacing a word with a synonym, an antonym, a typo, a random word, and
converting the original sentence into its negation. Different rules yield
different subsets of HEROS. By systematically comparing the performance of over
60 supervised and unsupervised SEs on HEROS, we reveal that most unsupervised
sentence encoders are insensitive to negation. We find the datasets used to
train the SE are the main determinants of what kind of sentence pairs an SE
considers similar. We also show that even if two SEs have similar performance
on STS benchmarks, they can have very different behavior on HEROS. Our result
reveals the blind spot of traditional STS benchmarks when evaluating SEs.
- Abstract(参考訳): 既存の文テキスト類似性ベンチマークデータセットは、文エンコーダの判断がいかに人間に類似しているかを要約するために、単一の番号のみを使用する。
しかし, 文エンコーダ (SE) がどのような文対を類似とみなすかは明らかでない。
また、既存のseベンチマークでは、語彙重なりの低い文対を主に考慮しており、2つの文が語彙重なりが高い場合、sesがどのように振る舞うかは明らかではない。
高品質なSE診断データセットHEROSを導入する。
heros は、ある規則に基づいて元の文を新しい文に変換して \textit{minimal pair} を形成することで構成され、最小のペアは語彙の重なりが高い。
規則には、単語をシノニム、対義語、タイプポ、ランダムな単語に置き換え、元の文を否定に変換することが含まれる。
異なる規則はHEROSの異なる部分集合を生成する。
HEROS上の60以上の教師なしSEの性能を体系的に比較することにより,ほとんどの教師なしエンコーダが否定に敏感であることを明らかにする。
SEをトレーニングするために使用されるデータセットが、SEが類似していると考える文ペアの主決定要因であることがわかった。
また、2つのSEがSTSベンチマークで類似した性能を持つ場合でも、HEROS上での挙動が全く異なることを示す。
この結果から,SEの評価において従来のSTSベンチマークの盲点が明らかとなった。
関連論文リスト
- Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic
Representations [102.05351905494277]
サブ文エンコーダ(Sub-sentence encoder)は、テキストの微細な意味表現のためのコンテクスト埋め込みモデルである。
文エンコーダと比較して,サブ文エンコーダは推論コストと空間複雑さのレベルが同じであることを示す。
論文 参考訳(メタデータ) (2023-11-07T20:38:30Z) - The Daunting Dilemma with Sentence Encoders: Success on Standard
Benchmarks, Failure in Capturing Basic Semantic Properties [6.747934699209743]
我々は,既存の5つの文エンコーダ,すなわちセンテンス-BERT,Universal Sentence (USE), LASER, Inferfer, Doc2vecを評価した。
本稿では,4つの意味的評価基準,すなわちパラフレージング,同期置換,アンソニー置換,センテンスジャムリングを提案する。
SBERTが両者の優位性であるので,Sentence-Bert と USE のモデルがパラフレージング基準をパスしていることが分かる。
論文 参考訳(メタデータ) (2023-09-07T14:42:35Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - SDA: Simple Discrete Augmentation for Contrastive Sentence Representation Learning [14.028140579482688]
SimCSEは、報告されているように、トリミング、単語削除、同義語置換といった個別の増強を驚くほど支配している。
我々は,句読点挿入,モーダル動詞,二重否定の3つの簡易かつ効果的な離散文拡張手法を開発した。
その結果,提案手法の優越性は一貫して向上した。
論文 参考訳(メタデータ) (2022-10-08T08:07:47Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Ranking-Enhanced Unsupervised Sentence Representation Learning [32.89057204258891]
文の意味は入力文と類似した最寄りの文によって決定されることを示す。
本稿では,新しい教師なし文エンコーダRancEncoderを提案する。
論文 参考訳(メタデータ) (2022-09-09T14:45:16Z) - A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive
Learning Framework for Sentence Embeddings [28.046786376565123]
Pseudo-Token BERT (PT-BERT) と呼ばれる文埋め込みのための意味認識型コントラスト学習フレームワークを提案する。
文長や構文などの表面的特徴の影響を排除しつつ、文の擬似トーケン空間(潜在意味空間)表現を利用する。
我々のモデルは6つの標準的な意味的テキスト類似性(STS)タスクにおける最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-03-11T12:29:22Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Three Sentences Are All You Need: Local Path Enhanced Document Relation
Extraction [54.95848026576076]
本稿では,文書レベルREのエビデンス文を選択するための,恥ずかしいほど単純だが効果的な方法を提案する。
私たちはhttps://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need.comでコードを公開しました。
論文 参考訳(メタデータ) (2021-06-03T12:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。