論文の概要: Investigating the Nature of Disagreements on Mid-Scale Ratings: A Case
Study on the Abstractness-Concreteness Continuum
- arxiv url: http://arxiv.org/abs/2311.04563v1
- Date: Wed, 8 Nov 2023 09:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 16:11:52.299436
- Title: Investigating the Nature of Disagreements on Mid-Scale Ratings: A Case
Study on the Abstractness-Concreteness Continuum
- Title(参考訳): 中規模評価における相違点の性質の検討:抽象性・連続性連続体を事例として
- Authors: Urban Knuple\v{s}, Diego Frassinelli, Sabine Schulte im Walde
- Abstract要約: 人間は極端な場合の尺度での格付けに強く同意する傾向にあるが、中規模語の判断はより意見の相違を示す。
本研究は,中規模単語の有意な多モーダルな特徴を特定するために,具体性評価に焦点をあて,相関関係と教師付き分類を実装した。
提案手法は, 使用前に, 微調整か, 中規模ターゲット語をフィルタリングすることである。
- 参考スコア(独自算出の注目度): 8.086165096687772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans tend to strongly agree on ratings on a scale for extreme cases (e.g.,
a CAT is judged as very concrete), but judgements on mid-scale words exhibit
more disagreement. Yet, collected rating norms are heavily exploited across
disciplines. Our study focuses on concreteness ratings and (i) implements
correlations and supervised classification to identify salient multi-modal
characteristics of mid-scale words, and (ii) applies a hard clustering to
identify patterns of systematic disagreement across raters. Our results suggest
to either fine-tune or filter mid-scale target words before utilising them.
- Abstract(参考訳): 人間は極端なケースの尺度での格付けに強く同意する傾向にある(例えば、CATは、非常に具体的なものと判断される)が、中規模語の判断は、より不一致を示す。
しかし、収集された評価基準は分野によって大きく活用されている。
私たちの研究はコンクリート質の評価と
(i)中規模単語の有意なマルチモーダル特性を特定するための相関と教師付き分類を実装し、
(ii)ラッカー間の系統的不一致のパターンを特定するためにハードクラスタリングを適用する。
提案手法は,それを利用する前に,微調整か,中規模ターゲット語をフィルタリングすることである。
関連論文リスト
- RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Using Natural Language Explanations to Rescale Human Judgments [89.21530406247142]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Benchmarking common uncertainty estimation methods with
histopathological images under domain shift and label noise [62.997667081978825]
リスクの高い環境では、深層学習モデルは不確実性を判断し、誤分類の可能性がかなり高い場合に入力を拒否しなければなりません。
我々は,全スライド画像の分類において,最もよく使われている不確実性と頑健さの厳密な評価を行う。
我々は一般的に,手法のアンサンブルが,ドメインシフトやラベルノイズに対するロバスト性の向上とともに,より良い不確実性評価につながることを観察する。
論文 参考訳(メタデータ) (2023-01-03T11:34:36Z) - CLEVA-Compass: A Continual Learning EValuation Assessment Compass to
Promote Research Transparency and Comparability [15.342039156426843]
私たちは、Desiderataの正確な定式化の目標は、様々なアプリケーションが常に異なるシナリオを保証できるため、不適切なものであると論じます。
CLEVA-コンパスは、最近のレプリケーショントレンドの精神の中でコンパクトな仕様の促進に加えて、個々のシステムの優先順位を理解するための直感的なチャートを提供する。
論文 参考訳(メタデータ) (2021-10-07T10:53:26Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z) - Is human scoring the best criteria for summary evaluation? [0.0]
人間のスコアとの相関に頼らずに最適な尺度を選択するための基準を検討する。
BLANCファミリーの測度に対する我々の観察は、この基準が全く異なる要約のスタイルで普遍的であることを示唆している。
論文 参考訳(メタデータ) (2020-12-29T04:48:52Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Uncertainty-aware Score Distribution Learning for Action Quality
Assessment [91.05846506274881]
行動品質評価(AQA)のための不確実性認識スコア分布学習(USDL)手法を提案する。
具体的には、異なる評価スコアの確率を記述したスコア分布に関連する事例として、アクションを考察する。
微粒なスコアラベルが利用できる状況下では、多パス不確実性を考慮したスコア分布学習法(MUSDL)を考案し、スコアの不整合成分を探索する。
論文 参考訳(メタデータ) (2020-06-13T15:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。