Fugu-MT 論文翻訳(概要): Investigating the Nature of Disagreements on Mid-Scale Ratings: A Case Study on the Abstractness-Concreteness Continuum

論文の概要: Investigating the Nature of Disagreements on Mid-Scale Ratings: A Case Study on the Abstractness-Concreteness Continuum

arxiv url: http://arxiv.org/abs/2311.04563v1
Date: Wed, 8 Nov 2023 09:52:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 16:11:52.299436
Title: Investigating the Nature of Disagreements on Mid-Scale Ratings: A Case Study on the Abstractness-Concreteness Continuum
Title（参考訳）: 中規模評価における相違点の性質の検討:抽象性・連続性連続体を事例として
Authors: Urban Knuple\v{s}, Diego Frassinelli, Sabine Schulte im Walde
Abstract要約: 人間は極端な場合の尺度での格付けに強く同意する傾向にあるが、中規模語の判断はより意見の相違を示す。本研究は,中規模単語の有意な多モーダルな特徴を特定するために,具体性評価に焦点をあて,相関関係と教師付き分類を実装した。提案手法は, 使用前に, 微調整か, 中規模ターゲット語をフィルタリングすることである。
参考スコア（独自算出の注目度）: 8.086165096687772
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans tend to strongly agree on ratings on a scale for extreme cases (e.g., a CAT is judged as very concrete), but judgements on mid-scale words exhibit more disagreement. Yet, collected rating norms are heavily exploited across disciplines. Our study focuses on concreteness ratings and (i) implements correlations and supervised classification to identify salient multi-modal characteristics of mid-scale words, and (ii) applies a hard clustering to identify patterns of systematic disagreement across raters. Our results suggest to either fine-tune or filter mid-scale target words before utilising them.
Abstract（参考訳）: 人間は極端なケースの尺度での格付けに強く同意する傾向にある(例えば、CATは、非常に具体的なものと判断される)が、中規模語の判断は、より不一致を示す。しかし、収集された評価基準は分野によって大きく活用されている。私たちの研究はコンクリート質の評価と (i)中規模単語の有意なマルチモーダル特性を特定するための相関と教師付き分類を実装し、 (ii)ラッカー間の系統的不一致のパターンを特定するためにハードクラスタリングを適用する。提案手法は,それを利用する前に,微調整か,中規模ターゲット語をフィルタリングすることである。

関連論文リスト

AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering [97.52852990265136]
音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。 AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
論文参考訳（メタデータ） (2026-01-21T07:35:36Z)
Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。 2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-02-19T06:31:06Z)
Evaluating Step-by-step Reasoning Traces: A Survey [3.895864050325129]
評価基準を4つのトップレベルカテゴリ(基底性、妥当性、コヒーレンス、有用性)で分類することを提案する。次に、それらの実装に基づいてメトリクスを分類し、それぞれの基準を評価するために使用されるメトリクスを調査し、評価モデルが異なる基準をまたいで転送できるかどうかを調査する。
論文参考訳（メタデータ） (2025-02-17T19:58:31Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
Rater Cohesion and Quality from a Vicarious Perspective [22.445283423317754]
Vicariousアノテーションは、他の人がデータにアノテートすると考える方法をラウンダーに問うことによって、不一致を断ち切る方法である。我々はレーダ結束指標を用いて、政治的関係や人種的背景がラテンダーの犯罪に対する認識に与える影響について検討する。我々は,レーダの品質指標が,個人的および活気あるレベルにわたって,グループ内およびグループ間レーダの凝集にどのように影響するかを検討する。
論文参考訳（メタデータ） (2024-08-15T20:37:36Z)
Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics [22.041561519672456]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成している。本稿では,3段階のサポートレベル間での引用を識別する上で,メトリクスの有効性を評価するための比較評価フレームワークを提案する。以上の結果から,全ての評価において一貫した指標が得られず,きめ細かな支援評価の複雑さが明らかとなった。
論文参考訳（メタデータ） (2024-06-21T15:57:24Z)
RankCSE: Unsupervised Sentence Representations Learning via Learning to Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文参考訳（メタデータ） (2023-05-26T08:27:07Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)
SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文参考訳（メタデータ） (2021-06-02T19:58:20Z)
Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。 QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文参考訳（メタデータ） (2021-06-01T14:11:17Z)
Dynamic Semantic Matching and Aggregation Network for Few-shot Intent Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文参考訳（メタデータ） (2020-10-06T05:16:38Z)
Uncertainty-aware Score Distribution Learning for Action Quality Assessment [91.05846506274881]
行動品質評価(AQA)のための不確実性認識スコア分布学習(USDL)手法を提案する。具体的には、異なる評価スコアの確率を記述したスコア分布に関連する事例として、アクションを考察する。微粒なスコアラベルが利用できる状況下では、多パス不確実性を考慮したスコア分布学習法(MUSDL)を考案し、スコアの不整合成分を探索する。
論文参考訳（メタデータ） (2020-06-13T15:41:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。