論文の概要: Investigating the Nature of Disagreements on Mid-Scale Ratings: A Case
Study on the Abstractness-Concreteness Continuum
- arxiv url: http://arxiv.org/abs/2311.04563v1
- Date: Wed, 8 Nov 2023 09:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 16:11:52.299436
- Title: Investigating the Nature of Disagreements on Mid-Scale Ratings: A Case
Study on the Abstractness-Concreteness Continuum
- Title(参考訳): 中規模評価における相違点の性質の検討:抽象性・連続性連続体を事例として
- Authors: Urban Knuple\v{s}, Diego Frassinelli, Sabine Schulte im Walde
- Abstract要約: 人間は極端な場合の尺度での格付けに強く同意する傾向にあるが、中規模語の判断はより意見の相違を示す。
本研究は,中規模単語の有意な多モーダルな特徴を特定するために,具体性評価に焦点をあて,相関関係と教師付き分類を実装した。
提案手法は, 使用前に, 微調整か, 中規模ターゲット語をフィルタリングすることである。
- 参考スコア(独自算出の注目度): 8.086165096687772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans tend to strongly agree on ratings on a scale for extreme cases (e.g.,
a CAT is judged as very concrete), but judgements on mid-scale words exhibit
more disagreement. Yet, collected rating norms are heavily exploited across
disciplines. Our study focuses on concreteness ratings and (i) implements
correlations and supervised classification to identify salient multi-modal
characteristics of mid-scale words, and (ii) applies a hard clustering to
identify patterns of systematic disagreement across raters. Our results suggest
to either fine-tune or filter mid-scale target words before utilising them.
- Abstract(参考訳): 人間は極端なケースの尺度での格付けに強く同意する傾向にある(例えば、CATは、非常に具体的なものと判断される)が、中規模語の判断は、より不一致を示す。
しかし、収集された評価基準は分野によって大きく活用されている。
私たちの研究はコンクリート質の評価と
(i)中規模単語の有意なマルチモーダル特性を特定するための相関と教師付き分類を実装し、
(ii)ラッカー間の系統的不一致のパターンを特定するためにハードクラスタリングを適用する。
提案手法は,それを利用する前に,微調整か,中規模ターゲット語をフィルタリングすることである。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Rater Cohesion and Quality from a Vicarious Perspective [22.445283423317754]
Vicariousアノテーションは、他の人がデータにアノテートすると考える方法をラウンダーに問うことによって、不一致を断ち切る方法である。
我々はレーダ結束指標を用いて、政治的関係や人種的背景がラテンダーの犯罪に対する認識に与える影響について検討する。
我々は,レーダの品質指標が,個人的および活気あるレベルにわたって,グループ内およびグループ間レーダの凝集にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2024-08-15T20:37:36Z) - Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics [22.041561519672456]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成している。
本稿では,3段階のサポートレベル間での引用を識別する上で,メトリクスの有効性を評価するための比較評価フレームワークを提案する。
以上の結果から,全ての評価において一貫した指標が得られず,きめ細かな支援評価の複雑さが明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T15:57:24Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Uncertainty-aware Score Distribution Learning for Action Quality
Assessment [91.05846506274881]
行動品質評価(AQA)のための不確実性認識スコア分布学習(USDL)手法を提案する。
具体的には、異なる評価スコアの確率を記述したスコア分布に関連する事例として、アクションを考察する。
微粒なスコアラベルが利用できる状況下では、多パス不確実性を考慮したスコア分布学習法(MUSDL)を考案し、スコアの不整合成分を探索する。
論文 参考訳(メタデータ) (2020-06-13T15:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。