論文の概要: Not All Subjectivity Is the Same! Defining Desiderata for the Evaluation of Subjectivity in NLP
- arxiv url: http://arxiv.org/abs/2603.28351v1
- Date: Mon, 30 Mar 2026 12:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.383493
- Title: Not All Subjectivity Is the Same! Defining Desiderata for the Evaluation of Subjectivity in NLP
- Title(参考訳): すべての主観性は同じではない!NLPにおける主観性評価のためのDesiderataの定義
- Authors: Urja Khurana, Michiel van der Meer, Enrico Liscio, Antske Fokkens, Pradeep K. Murukannaiah,
- Abstract要約: 主観的判断はいくつかのNLPデータセットの一部である。
最近の研究は、アウトプットがこの視点の多様性を反映するモデルの優先順位付けをますます進めている。
評価プラクティスがこれらのモデルの目的に合致するかどうか、依然として疑問が残る。
- 参考スコア(独自算出の注目度): 8.416822614574368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subjective judgments are part of several NLP datasets and recent work is increasingly prioritizing models whose outputs reflect this diversity of perspectives. Such responses allow us to shed light on minority voices, which are frequently marginalized or obscured by dominant perspectives. It remains a question whether our evaluation practices align with these models' objectives. This position paper proposes seven evaluation desiderata for subjectivity-sensitive models, rooted in how subjectivity is represented in NLP data and models. The desiderata are constructed in a top-down approach, keeping in mind the user-centric impact of such models. We scan the experimental setup of 60 papers and show that various aspects of subjectivity are still understudied: the distinction between ambiguous and polyphonic input, whether subjectivity is effectively expressed to the user, and a lack of interplay between different desiderata, amongst other gaps.
- Abstract(参考訳): 主観的判断はいくつかのNLPデータセットの一部であり、近年の研究では、この視点の多様性を反映した出力モデルがますます優先順位付けされている。
このような反応によって、少数派の声に光を当てることができる。
評価プラクティスがこれらのモデルの目的に合致するかどうか、依然として疑問が残る。
本研究では,NLPデータとモデルに主観性がどのように表現されるかに根ざした,主観性に敏感なモデルに対する7つの評価デシラタを提案する。
Dedeiderataはトップダウンのアプローチで構築されており、そのようなモデルのユーザ中心の影響を念頭に置いている。
本研究は,60枚の論文をスキャンし,不明瞭な入力とポリフォニック入力の区別,ユーザに対して効果的に主観性が表現されるか否か,異なるデシラタ間の相互作用の欠如など,主観性に関する様々な側面がまだ検討されていることを示す。
関連論文リスト
- Perspectives in Play: A Multi-Perspective Approach for More Inclusive NLP Systems [3.011820285006942]
本研究では,視点認識モデルの開発を促進するために,ソフトラベルを用いた新しい多視点アプローチを提案する。
我々は、ヘイトスピーチ、皮肉、虐待言語、スタンス検出など、多様な主観的テキスト分類タスクの分析を行う。
結果は、Jensen-Shannon Divergence (JSD) が測定したように、マルチパースペクティブアプローチが人間のラベル分布をよりよく近似していることを示している。
本手法は,本文の主観性に起因して,皮肉や姿勢検出などの課題に対する信頼度を低下させる。
論文 参考訳(メタデータ) (2025-06-25T07:53:36Z) - Embracing Diversity: A Multi-Perspective Approach with Soft Labels [3.529000007777341]
本稿では,複数のアノテータが議論の的となっているトピックに基づいてスタンスを割り当てる,スタンス検出タスクにおける視点認識モデルの設計手法を提案する。
その結果,マルチパースペクティブアプローチにより,より優れた分類性能(より高いF1スコア)が得られることがわかった。
論文 参考訳(メタデータ) (2025-03-01T13:33:38Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Towards Reliable Assessments of Demographic Disparities in Multi-Label
Image Classifiers [11.973749734226852]
マルチラベル画像分類と,特に対象分類タスクについて検討する。
測定のための設計選択とトレードオフは、以前のコンピュータビジョン文学で議論されたよりもニュアンスが高い。
実装の詳細にだけ似ているが、評価の結論に大きな影響を及ぼすいくつかの設計選択を特定します。
論文 参考訳(メタデータ) (2023-02-16T20:34:54Z) - Considering user agreement in learning to predict the aesthetic quality [35.255447771350404]
本稿では、平均意見スコアと標準偏差の両方をエンドツーエンドに予測するために、再適応型マルチタスクアテンションネットワークを提案する。
このような損失により、モデルは観察者の意見の多様性に関連するコンテンツの不確実性を学ぶことが奨励される。
提案したマルチタスク美的モデルが,2種類の審美的データセットに対して最先端のパフォーマンスを実現することを示す実験が実施されている。
論文 参考訳(メタデータ) (2021-10-13T18:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。