論文の概要: CSTS: Conditional Semantic Textual Similarity
- arxiv url: http://arxiv.org/abs/2305.15093v1
- Date: Wed, 24 May 2023 12:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 15:58:52.311229
- Title: CSTS: Conditional Semantic Textual Similarity
- Title(参考訳): CSTS: 条件付きセマンティックテキストの類似性
- Authors: Ameet Deshpande, Carlos E. Jimenez, Howard Chen, Vishvak Murahari,
Victoria Graf, Tanmay Rajpurohit, Ashwin Kalyan, Danqi Chen, Karthik
Narasimhan
- Abstract要約: 条件STS(C-STS)は、自然言語(heon, condition)で解明されたアスペクトで条件付けられた類似度を測定する
C-STSには、さまざまなドメインから約20,000のインスタンスが含まれており、いくつかの最先端モデルを評価する。
我々はコミュニティに対して,C-STSでのモデル評価を奨励し,セマンティックな類似性と自然言語理解のより包括的な視点を提供する。
- 参考スコア(独自算出の注目度): 32.18239431735642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic textual similarity (STS) has been a cornerstone task in NLP that
measures the degree of similarity between a pair of sentences, with
applications in information retrieval, question answering, and embedding
methods. However, it is an inherently ambiguous task, with the sentence
similarity depending on the specific aspect of interest. We resolve this
ambiguity by proposing a novel task called conditional STS (C-STS) which
measures similarity conditioned on an aspect elucidated in natural language
(hereon, condition). As an example, the similarity between the sentences "The
NBA player shoots a three-pointer." and "A man throws a tennis ball into the
air to serve." is higher for the condition "The motion of the ball." (both
upward) and lower for "The size of the ball." (one large and one small).
C-STS's advantages are two-fold: (1) it reduces the subjectivity and ambiguity
of STS, and (2) enables fine-grained similarity evaluation using diverse
conditions. C-STS contains almost 20,000 instances from diverse domains and we
evaluate several state-of-the-art models to demonstrate that even the most
performant fine-tuning and in-context learning models (GPT-4, Flan, SimCSE)
find it challenging, with Spearman correlation scores of <50. We encourage the
community to evaluate their models on C-STS to provide a more holistic view of
semantic similarity and natural language understanding.
- Abstract(参考訳): セマンティックテキスト類似性(STS)は、情報検索、質問応答、埋め込み方法など、一対の文間の類似度を測定するNLPにおける基礎的なタスクである。
しかし、本質的にあいまいな作業であり、文の類似性は興味のある特定の側面に依存する。
この曖昧性は、自然言語(ヘリオ, コンディション)で解明されたアスペクトで条件付けられた類似度を測定する条件STS(C-STS)と呼ばれる新しいタスクを提案することで解決する。
例えば、「nbaプレーヤーが3つポイントを放つ」と「男がテニスボールを空中に投げてサーブする」という文の類似性は、「ボールの動き」(上向きとも)と「ボールの大きさ」(大小と小小)の条件の方が高い。
C-STSの利点は2つある: 1) STSの主観性と曖昧さを低減し、(2) 多様な条件を用いた微粒な類似性評価を可能にする。
C-STSには様々なドメインから約20,000のインスタンスが含まれており、最も高性能な微調整および文脈内学習モデル(GPT-4, Flan, SimCSE)でさえ、Spearman相関スコアが50。
我々はコミュニティに対して,C-STSでのモデル評価を奨励し,セマンティックな類似性と自然言語理解のより包括的な視点を提供する。
関連論文リスト
- Linguistically Conditioned Semantic Textual Similarity [6.049872961766425]
我々は、C-STS検証セットを再注釈し、元のラベルのアノテーションエラーによるインスタンスの55%でアノテーションの不一致を観察する。
80%以上のF1スコアでCSTSデータからアノテーションエラーを識別できる自動エラー識別パイプラインを提案する。
そこで本研究では,C-STSデータのベースライン上の性能を大幅に改善する手法を提案する。
論文 参考訳(メタデータ) (2024-06-06T01:23:45Z) - StoryAnalogy: Deriving Story-level Analogies from Large Language Models
to Unlock Analogical Understanding [72.38872974837462]
大規模ストーリーレベルの類似語コーパスを構築することにより,類似語を識別・生成する能力を評価する。
textscStory Analogyには、さまざまなドメインから24Kストーリーペアが含まれており、拡張された構造マッピング理論の2つの類似点に人間のアノテーションがある。
我々は、textscStory Analogyのデータは、大言語モデルにおけるアナログ生成の品質を向上させることができることを観察した。
論文 参考訳(メタデータ) (2023-10-19T16:29:23Z) - Semantic similarity prediction is better than other semantic similarity
measures [5.176134438571082]
意味的類似度を測ることのみに関心がある場合、そのようなタスクのために微調整されたモデルを用いて、その類似度を直接予測する方がよいと論じる。
GLUEベンチマークから得られたセマンティックテキスト類似性ベンチマークタスク(STS-B)の微調整モデルを用いて、STSScoreアプローチを定義し、その結果の類似性は他の手法よりも堅牢なセマンティック類似性尺度に対する期待に合致していることを示す。
論文 参考訳(メタデータ) (2023-09-22T08:11:01Z) - Collective Human Opinions in Semantic Textual Similarity [36.780812651679376]
USTSは、15,000の中国語文対と15万のラベルを持つ最初の不確実性対応STSデータセットである。
現状のSTSモデルでは,個々のインスタンスに対する人的不一致に起因する分散を捉えることはできない。
論文 参考訳(メタデータ) (2023-08-08T08:00:52Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Identifying Ambiguous Similarity Conditions via Semantic Matching [49.06931755266372]
Weakly Supervised Conditional similarity Learning (WS-CSL)を紹介する。
WS-CSLは、"can fly"のような明示的な条件ラベルなしでセマンティック条件にマッチする複数の埋め込みを学習する
本研究では, インスタンスインスタンスと三重項条件の関係を「分解・融合」方式で特徴付ける, 距離誘起セマンティック・コンディション検証ネットワーク (DiscoverNet) を提案する。
論文 参考訳(メタデータ) (2022-04-08T13:15:55Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。