論文の概要: Collective Human Opinions in Semantic Textual Similarity
- arxiv url: http://arxiv.org/abs/2308.04114v1
- Date: Tue, 8 Aug 2023 08:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 13:33:44.511468
- Title: Collective Human Opinions in Semantic Textual Similarity
- Title(参考訳): 意味的テクスト類似性における集団的人間の意見
- Authors: Yuxia Wang, Shimin Tao, Ning Xie, Hao Yang, Timothy Baldwin, Karin
Verspoor
- Abstract要約: USTSは、15,000の中国語文対と15万のラベルを持つ最初の不確実性対応STSデータセットである。
現状のSTSモデルでは,個々のインスタンスに対する人的不一致に起因する分散を捉えることはできない。
- 参考スコア(独自算出の注目度): 36.780812651679376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the subjective nature of semantic textual similarity (STS) and
pervasive disagreements in STS annotation, existing benchmarks have used
averaged human ratings as the gold standard. Averaging masks the true
distribution of human opinions on examples of low agreement, and prevents
models from capturing the semantic vagueness that the individual ratings
represent. In this work, we introduce USTS, the first Uncertainty-aware STS
dataset with ~15,000 Chinese sentence pairs and 150,000 labels, to study
collective human opinions in STS. Analysis reveals that neither a scalar nor a
single Gaussian fits a set of observed judgements adequately. We further show
that current STS models cannot capture the variance caused by human
disagreement on individual instances, but rather reflect the predictive
confidence over the aggregate dataset.
- Abstract(参考訳): セマンティックテキスト類似性(STS)の主観的な性質とSTSアノテーションの広汎な相違にもかかわらず、既存のベンチマークでは、平均的な人間格付けをゴールドスタンダードとして使用してきた。
平均的なマスクは、低い合意の例における人間の意見の真の分布を隠蔽し、モデルが個々の評価が示す意味的曖昧さを捉えるのを防ぐ。
本研究では,約15,000の文対と15万のラベルを持つ最初の不確実性対応STSデータセットであるUSTSを紹介する。
分析により、スカラーも単一のガウス群も観測された判断のセットに適切に適合しないことが明らかになった。
さらに,現在のstsモデルでは,個々のインスタンスに対する人間の不一致によるばらつきを捉えることはできず,集合データセットに対する予測信頼度を反映していることを示した。
関連論文リスト
- Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSOFAをキュレートする。
既存のベンチマークと比較すると、言語モデル内のバイアスは認識されるよりもニュアンスが高いことが分かる。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - Comparing Intrinsic Gender Bias Evaluation Measures without using Human
Annotated Examples [33.044775876807826]
そこで本研究では,人間に注釈を付けた例に頼らずに,本質的な性別偏見評価手法を比較する手法を提案する。
具体的には、男性と女性の男女差のある文章を多量に使用して、バイアス制御された言語モデルのバージョンを作成する。
計算されたバイアススコアとPLMの微調整に用いる性別比とのランク相関を算出する。
論文 参考訳(メタデータ) (2023-01-28T03:11:50Z) - Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot Debiasing [98.07536837448293]
大規模言語モデル(LLM)は、様々な人口層に対して有害で人間らしいバイアスを示すことが示されている。
生成言語モデルにおけるバイアスを頑健に測定するためのdesiderataのリストを紹介する。
次に、このベンチマークを使用して、Llama、Mistral、およびそれらの命令チューニングバージョンを含む、最先端のオープンソースLLMをテストします。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z) - Holistic Approach to Measure Sample-level Adversarial Vulnerability and
its Utility in Building Trustworthy Systems [17.707594255626216]
敵対的攻撃は、知覚不能な雑音を伴うイメージを摂動させ、誤ったモデル予測をもたらす。
本稿では,異なる視点を組み合わせることで,サンプルの敵対的脆弱性を定量化するための総合的アプローチを提案する。
サンプルレベルで確実に敵の脆弱性を推定することにより、信頼できるシステムを開発できることを実証する。
論文 参考訳(メタデータ) (2022-05-05T12:36:17Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。