論文の概要: What Makes Sentences Semantically Related: A Textual Relatedness Dataset
and Empirical Study
- arxiv url: http://arxiv.org/abs/2110.04845v4
- Date: Mon, 20 Mar 2023 13:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 05:50:13.438014
- Title: What Makes Sentences Semantically Related: A Textual Relatedness Dataset
and Empirical Study
- Title(参考訳): 文章を意味的に関連付けるもの:テキスト関連性データセットと実証的研究
- Authors: Mohamed Abdalla, Krishnapriya Vishnubhotla, Saif M. Mohammad
- Abstract要約: 本稿では,5500の英文対を手動で注釈付けしたセマンティックテキスト関連性データセットSTR-2022を紹介する。
文対の関連性に関する人間の直感は信頼性が高く, 繰り返しアノテーションの相関は0.84である。
また, STR-2022は, 文章表現の自動手法や, 下流の様々なNLPタスクに対して有効であることを示す。
- 参考スコア(独自算出の注目度): 31.062129406113588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The degree of semantic relatedness of two units of language has long been
considered fundamental to understanding meaning. Additionally, automatically
determining relatedness has many applications such as question answering and
summarization. However, prior NLP work has largely focused on semantic
similarity, a subset of relatedness, because of a lack of relatedness datasets.
In this paper, we introduce a dataset for Semantic Textual Relatedness,
STR-2022, that has 5,500 English sentence pairs manually annotated using a
comparative annotation framework, resulting in fine-grained scores. We show
that human intuition regarding relatedness of sentence pairs is highly
reliable, with a repeat annotation correlation of 0.84. We use the dataset to
explore questions on what makes sentences semantically related. We also show
the utility of STR-2022 for evaluating automatic methods of sentence
representation and for various downstream NLP tasks.
Our dataset, data statement, and annotation questionnaire can be found at:
https://doi.org/10.5281/zenodo.7599667
- Abstract(参考訳): 2つの言語単位の意味的関連性の程度は、長い間、意味を理解するのに基礎的と考えられてきた。
さらに、関連性の自動決定には、質問応答や要約など多くの応用がある。
しかしながら、NLPの以前の研究は、関連性データセットの欠如により、関連性のサブセットである意味的類似性に主に焦点を合わせてきた。
本稿では、比較アノテーションフレームワークを用いて5500の英文ペアを手作業で注釈付けした意味的テキスト関連性のためのデータセットであるstr-2022について述べる。
文対の関連性に関する人間の直感は信頼性が高く, 繰り返しアノテーションの相関は0.84である。
データセットを使用して、文を意味的に関連づける要因を探求します。
また,str-2022を用いて文の自動表現法と下流の様々なnlpタスクの評価を行った。
データセット、データステートメント、アノテーションのアンケートは、https://doi.org/10.5281/zenodo.7599667で見ることができる。
関連論文リスト
- Tübingen-CL at SemEval-2024 Task 1:Ensemble Learning for Semantic Relatedness Estimation [0.0]
本稿では,文対の関連性を予測することを目的としたSemEval-2024 Task 1を提案する。
我々は,関係性の予測のために,統計テキストの特徴や深層学習モデルの出力など,様々なシステムを統合するアンサンブルアプローチを採用する。
論文 参考訳(メタデータ) (2024-10-14T14:56:51Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - EDeR: A Dataset for Exploring Dependency Relations Between Events [12.215649447070664]
人間アノテーション付きイベント依存関係データセット(EDeR)を紹介する。
この関係を認識することで、より正確なイベント抽出が可能になることを示す。
我々は,3方向の分類を必須引数,任意引数,あるいは非議論に予測することは,より困難な課題であることを示した。
論文 参考訳(メタデータ) (2023-04-04T08:07:07Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - ASPER: Attention-based Approach to Extract Syntactic Patterns denoting
Semantic Relations in Sentential Context [2.175490119265481]
本稿では,意味的関係を示すエンティティ間の統語的パターンを意味的文脈で抽出する,注意に基づく教師付きディープラーニングモデルASPERを提案する。
我々は,6つのデータセットにおけるhypnym-hypernym, cause-effect, meronym-holonymの3つの意味関係について,asperの性能を検証する。
これらの意味関係について、ASPERは文中の一対のエンティティ間のそのような関係の存在を反映した構文パターンのコレクションを自動的に識別することができる。
論文 参考訳(メタデータ) (2021-04-04T02:36:19Z) - Relation Clustering in Narrative Knowledge Graphs [71.98234178455398]
原文内の関係文は(SBERTと)埋め込み、意味論的に類似した関係をまとめるためにクラスタ化される。
予備的なテストでは、そのようなクラスタリングが類似した関係を検知し、半教師付きアプローチのための貴重な前処理を提供することが示されている。
論文 参考訳(メタデータ) (2020-11-27T10:43:04Z) - Comparative analysis of word embeddings in assessing semantic similarity
of complex sentences [8.873705500708196]
既存のベンチマークデータセットの文を解析し,文の複雑さに関する各種単語埋め込みの感度を解析する。
その結果, 文の複雑さの増大は, 埋め込みモデルの性能に重大な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:55:11Z) - Learning to Decouple Relations: Few-Shot Relation Classification with
Entity-Guided Attention and Confusion-Aware Training [49.9995628166064]
本稿では,2つのメカニズムを備えたモデルであるCTEGを提案する。
一方、注意を誘導するEGA機構を導入し、混乱を引き起こす情報をフィルタリングする。
一方,コンフュージョン・アウェア・トレーニング(CAT)法は,関係の識別を明示的に学習するために提案されている。
論文 参考訳(メタデータ) (2020-10-21T11:07:53Z) - Pareto Probing: Trading Off Accuracy for Complexity [87.09294772742737]
我々は,プローブの複雑性と性能の基本的なトレードオフを反映したプローブ計量について論じる。
係り受け解析による実験により,文脈表現と非文脈表現の統語的知識の幅広いギャップが明らかとなった。
論文 参考訳(メタデータ) (2020-10-05T17:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。