論文の概要: Training and Evaluating with Human Label Variation: An Empirical Study
- arxiv url: http://arxiv.org/abs/2502.01891v1
- Date: Mon, 03 Feb 2025 23:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:39.328988
- Title: Training and Evaluating with Human Label Variation: An Empirical Study
- Title(参考訳): ラベル変動によるトレーニングと評価 : 実証的研究
- Authors: Kemal Kurniawan, Meladel Mistica, Timothy Baldwin, Jey Han Lau,
- Abstract要約: HLV(Human label variation)は、例が単一根拠の真理を持つという標準的な仮定に挑戦する。
本稿では,新たな評価指標とトレーニング手法を提案し,HLV評価指標を実証的にメタ評価する。
- 参考スコア(独自算出の注目度): 44.5492443909544
- License:
- Abstract: Human label variation (HLV) challenges the standard assumption that an example has a single ground truth, instead embracing the natural variation in human labelling to train and evaluate models. While various training methods and metrics for HLV have been proposed, there has been no systematic meta-evaluation of HLV evaluation metrics, contributing to the lack of clarity in the best HLV training method. We propose new evaluation metrics and training methods and empirically meta-evaluate HLV evaluation metrics. We find that training on either disaggregated annotations or soft labels often performs best across metrics, and that our proposed soft metric correlates best with human preference.
- Abstract(参考訳): HLV(Human label variation)は、例が単一の真実を持つという標準的な仮定に挑戦し、モデルのトレーニングと評価のために人間のラベルの自然な変化を受け入れる。
HLVのための様々なトレーニング方法や測定基準が提案されているが、HLV評価基準の体系的なメタ評価は行われておらず、最高のHLVトレーニング方法の明確さの欠如に寄与している。
本稿では,新たな評価指標とトレーニング手法を提案し,HLV評価指標を実証的にメタ評価する。
分類されたアノテーションやソフトラベルのトレーニングは、メトリクス間で最高のパフォーマンスを示すことが多く、提案したソフトメトリックは人間の好みと相関する。
関連論文リスト
- Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment [33.5805074836187]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるのに非常に効果的であることが証明されている。
この制限は、RLHFが特定のトークンを強化または抑制すべきかどうかについての認識の欠如に起因している。
本稿では,様々なタスクに頑健に適用可能な適応的メッセージワイドRLHF'法を提案する。
論文 参考訳(メタデータ) (2024-10-23T16:16:15Z) - Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。
まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。
現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-25T06:49:03Z) - Quantifying Variance in Evaluation Benchmarks [34.12254884944099]
評価ベンチマークのばらつきは,初期化における種子のばらつき,訓練中の単調性などである。
選択タスクを完了タスクとしてフレーミングするといった単純な変更は、小さなスケールでの分散を減少させる可能性がある。
人間のテスト文献(項目分析や項目応答理論など)に触発されたより複雑な手法は、分散を有意義に減少させるのに苦労する。
論文 参考訳(メタデータ) (2024-06-14T17:59:54Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Metric-oriented Speech Enhancement using Diffusion Probabilistic Model [23.84172431047342]
ディープニューラルネットワークに基づく音声強調技術は、ペアトレーニングデータによって教師されるノイズからクリーンへの変換を学ぶことに焦点を当てている。
タスク固有の評価基準(例えば、PSSQ)は、通常微分不可能であり、トレーニング基準で直接構築することはできない。
本稿では,その逆プロセスにメトリック指向のトレーニング戦略を統合する,距離指向音声強調手法を提案する。
論文 参考訳(メタデータ) (2023-02-23T13:12:35Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。