論文の概要: Annotating Training Data for Conditional Semantic Textual Similarity Measurement using Large Language Models
- arxiv url: http://arxiv.org/abs/2509.14399v1
- Date: Wed, 17 Sep 2025 20:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.96306
- Title: Annotating Training Data for Conditional Semantic Textual Similarity Measurement using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた条件付き意味的テクスチャ類似度測定のための注記データ
- Authors: Gaifan Zhang, Yi Zhou, Danushka Bollegala,
- Abstract要約: Deshpande et al. (2023) は条件付きセマンティックテキスト類似性 (Conditional Semantic Textual similarity, C-STS) タスクを提案した。
最小限の手作業で、C-STSタスクのための大規模なトレーニングデータセットを再注釈します。
クリーンで再注釈されたデータセット上で教師付きC-STSモデルをトレーニングすることにより、スピアマン相関の統計的に有意な改善を5.4%達成する。
- 参考スコア(独自算出の注目度): 24.298406471983558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic similarity between two sentences depends on the aspects considered between those sentences. To study this phenomenon, Deshpande et al. (2023) proposed the Conditional Semantic Textual Similarity (C-STS) task and annotated a human-rated similarity dataset containing pairs of sentences compared under two different conditions. However, Tu et al. (2024) found various annotation issues in this dataset and showed that manually re-annotating a small portion of it leads to more accurate C-STS models. Despite these pioneering efforts, the lack of large and accurately annotated C-STS datasets remains a blocker for making progress on this task as evidenced by the subpar performance of the C-STS models. To address this training data need, we resort to Large Language Models (LLMs) to correct the condition statements and similarity ratings in the original dataset proposed by Deshpande et al. (2023). Our proposed method is able to re-annotate a large training dataset for the C-STS task with minimal manual effort. Importantly, by training a supervised C-STS model on our cleaned and re-annotated dataset, we achieve a 5.4% statistically significant improvement in Spearman correlation. The re-annotated dataset is available at https://LivNLP.github.io/CSTS-reannotation.
- Abstract(参考訳): 2つの文間の意味的類似性は、これらの文の間に考慮された側面に依存する。
この現象を研究するため、Deshpande et al (2023) は条件付きセマンティックテキスト類似性(Conditional Semantic Textual similarity, C-STS)タスクを提案し、2つの異なる条件で比較した文のペアを含む人間レベルの類似性データセットを注釈付けした。
しかし、Tu et al (2024) はこのデータセットに様々なアノテーションの問題を発見し、手動で注釈を書き換えることでより正確なC-STSモデルが得られることを示した。
これらの先駆的な取り組みにもかかわらず、C-STSモデルのサブパー性能によって証明されたように、大規模かつ正確に注釈付けされたC-STSデータセットの欠如は、このタスクの進行を妨げている。
このトレーニングデータのニーズに対処するために、我々は、Deshpande et al (2023) によって提案された最初のデータセットにおける条件文と類似性評価を修正するために、Large Language Models (LLMs) を利用する。
提案手法は,C-STSタスクのための大規模なトレーニングデータセットを,手作業の最小限で再注釈することができる。
重要なことは、クリーンで再アノテーションされたデータセット上で教師付きC-STSモデルをトレーニングすることで、スピアマン相関の統計的に有意な改善を5.4%達成する。
re-annotatedデータセットはhttps://LivNLP.github.io/CSTS-reannotationで公開されている。
関連論文リスト
- ZZU-NLP at SIGHAN-2024 dimABSA Task: Aspect-Based Sentiment Analysis with Coarse-to-Fine In-context Learning [0.36332383102551763]
DimABSAタスクはレストランレビューに微妙な感情強度予測を必要とする。
そこで本稿では,DimABSAタスクに対するBaichuan2-7Bモデルに基づく大まかなインコンテクスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-22T02:54:46Z) - Advancing Semantic Textual Similarity Modeling: A Regression Framework with Translated ReLU and Smooth K2 Loss [3.435381469869212]
本稿では,Sentence-BERT STSタスクのための革新的な回帰フレームワークを提案する。
これは2つの単純で効果的な損失関数、Translated ReLUとSmooth K2 Lossを提案する。
実験結果から,本手法は7つのSTSベンチマークにおいて有意な性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-06-08T02:52:43Z) - Linguistically Conditioned Semantic Textual Similarity [6.049872961766425]
我々は、C-STS検証セットを再注釈し、元のラベルのアノテーションエラーによるインスタンスの55%でアノテーションの不一致を観察する。
80%以上のF1スコアでCSTSデータからアノテーションエラーを識別できる自動エラー識別パイプラインを提案する。
そこで本研究では,C-STSデータのベースライン上の性能を大幅に改善する手法を提案する。
論文 参考訳(メタデータ) (2024-06-06T01:23:45Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Data Similarity is Not Enough to Explain Language Model Performance [6.364065652816667]
類似度は言語モデルの性能と相関する。
類似度指標は正確性や相互に相関しない。
これは、事前学習データと下流タスクの関係が、しばしば想定されるよりも複雑であることを示している。
論文 参考訳(メタデータ) (2023-11-15T14:48:08Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - C-STS: Conditional Semantic Textual Similarity [70.09137422955506]
条件STS(Conditional STS)と呼ばれる新しいタスクを提案する。
自然言語で記述された特徴(ヒョン, コンディション)に基づく文の類似度を測定する。
C-STSの利点は2つある:それはSTSの主観性と曖昧さを減らし、多様な自然言語条件を通して、きめ細かい言語モデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-24T12:18:50Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。