論文の概要: NLU-STR at SemEval-2024 Task 1: Generative-based Augmentation and Encoder-based Scoring for Semantic Textual Relatedness
- arxiv url: http://arxiv.org/abs/2405.00659v1
- Date: Wed, 1 May 2024 17:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 14:57:49.261524
- Title: NLU-STR at SemEval-2024 Task 1: Generative-based Augmentation and Encoder-based Scoring for Semantic Textual Relatedness
- Title(参考訳): NLU-STR at SemEval-2024 Task 1:Generative-based Augmentation and Encoder-based Scoring for Semantic Textual Relatedness
- Authors: Sanad Malaysha, Mustafa Jarrar, Mohammed Khalilia,
- Abstract要約: SemEval-2024の共有タスクであるSemRel-2024は、意味的関連性タスクのギャップを減らすことを目的としている。
本稿では,トラックA(アルジェリア方言とモロッコ方言)とトラックB(現代標準アラビア語)への参加について報告する。
スピアマン相関スコア0.49のSemRel-2024で1位となった。
- 参考スコア(独自算出の注目度): 0.5461938536945721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic textual relatedness is a broader concept of semantic similarity. It measures the extent to which two chunks of text convey similar meaning or topics, or share related concepts or contexts. This notion of relatedness can be applied in various applications, such as document clustering and summarizing. SemRel-2024, a shared task in SemEval-2024, aims at reducing the gap in the semantic relatedness task by providing datasets for fourteen languages and dialects including Arabic. This paper reports on our participation in Track A (Algerian and Moroccan dialects) and Track B (Modern Standard Arabic). A BERT-based model is augmented and fine-tuned for regression scoring in supervised track (A), while BERT-based cosine similarity is employed for unsupervised track (B). Our system ranked 1st in SemRel-2024 for MSA with a Spearman correlation score of 0.49. We ranked 5th for Moroccan and 12th for Algerian with scores of 0.83 and 0.53, respectively.
- Abstract(参考訳): 意味的テキスト関連性(Semantic textual relatedness)は、意味的類似性のより広い概念である。
2つのテキストが類似の意味や話題を伝達する程度を測定したり、関連する概念や文脈を共有する。
この関連性の概念は、文書のクラスタリングや要約など、様々なアプリケーションに適用できる。
SemEval-2024の共有タスクであるSemRel-2024は、アラビア語を含む14の言語と方言のデータセットを提供することで、意味的関連性タスクのギャップを減らすことを目的としている。
本稿では,トラックA(アルジェリア方言とモロッコ方言)とトラックB(現代標準アラビア語)への参加について報告する。
BERTベースのモデルは、教師なしトラック(A)における回帰スコア(Regress score)のために強化および微調整され、BERTベースのコサイン類似性は教師なしトラック(B)に使用される。
スピアマン相関スコア0.49のSemRel-2024で1位となった。
モロッコでは5位、アルジェリアでは12位、スコアは0.83と0.53だった。
関連論文リスト
- IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts [4.78482610709922]
本稿では,SemEval-2024 Task 1: Semantic Textual Relatednessについて述べる。
この課題は、14言語における文のペア間の関連度を自動的に検出することに焦点を当てている。
論文 参考訳(メタデータ) (2024-04-06T05:58:42Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Mao-Zedong At SemEval-2023 Task 4: Label Represention Multi-Head
Attention Model With Contrastive Learning-Enhanced Nearest Neighbor Mechanism
For Multi-Label Text Classification [0.0]
SemEval 2023 Task 4citekiesel:2023は、引数のセットと、各引数に暗黙的に表現される20種類の人間の値を提供する。
特定のラベルとセマンティックコンポーネント間の接続を確立するためのマルチヘッドアテンション機構を提案する。
テストセットではF1スコアが0.533で,リーダボードでは4位にランクインした。
論文 参考訳(メタデータ) (2023-07-11T11:12:06Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - What Makes Sentences Semantically Related: A Textual Relatedness Dataset
and Empirical Study [31.062129406113588]
本稿では,5500の英文対を手動で注釈付けしたセマンティックテキスト関連性データセットSTR-2022を紹介する。
文対の関連性に関する人間の直感は信頼性が高く, 繰り返しアノテーションの相関は0.84である。
また, STR-2022は, 文章表現の自動手法や, 下流の様々なNLPタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-10-10T16:23:54Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - SST-BERT at SemEval-2020 Task 1: Semantic Shift Tracing by Clustering in
BERT-based Embedding Spaces [63.17308641484404]
本稿では,異なる単語の意味の表現として,各単語の異なる事象のクラスタを特定することを提案する。
得られたクラスタの分解は、自然に4つのターゲット言語において、各ターゲットワードごとの意味的シフトのレベルを定量化することができる。
当社のアプローチは,提供されたすべてのSemEvalベースラインを抜いて,個別(言語毎)と全体の両方で良好に動作します。
論文 参考訳(メタデータ) (2020-10-02T08:38:40Z) - CORD19STS: COVID-19 Semantic Textual Similarity Dataset [17.333108123527783]
オープンリサーチデータセット(CORD-19チャレンジ)から収集した13,710の注釈付き文対を含むCORD19STSデータセットを紹介する。
それぞれの文対は5人のAmazon Mechanical Turk (AMT) の群衆労働者によって注釈付けされ、それぞれのラベルは文対の間に異なる意味的類似度レベルを表す。
収集したアノテーションの検証に厳格な資格タスクを使用した後、最後のCORD19STSデータセットは13,710対の文対を含む。
論文 参考訳(メタデータ) (2020-07-05T22:23:37Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。