論文の概要: Metric-Dependent Annotation Saturation for Learning from Label Distributions
- arxiv url: http://arxiv.org/abs/2605.29797v1
- Date: Thu, 28 May 2026 11:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.210123
- Title: Metric-Dependent Annotation Saturation for Learning from Label Distributions
- Title(参考訳): ラベル分布からの学習のための計量依存アノテーション飽和
- Authors: Guneet Kohli,
- Abstract要約: 我々は,ChaosNLIをサブサンプルとしたラベル分布のNLIモデルを微調整する。
3クラス NLI では、エントロピー相関は N 20-50 のアノテータを収束させる必要がある。
ソフトラベルは、ラベルの平滑化が再現できないアイテム固有の信号を運ぶ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When annotators disagree on a label, the disagreement itself carries signal -- and the number of annotators needed to capture it depends on the evaluation metric. We fine-tune NLI models on label distributions subsampled from ChaosNLI, a dataset providing 100 independent annotator judgments per item, and identify metric-dependent saturation. In our 3-class NLI setting, entropy correlation -- whether the model identifies which items elicit disagreement -- requires N ~ 20-50 annotators to converge, while distributional match (KL divergence) saturates by N ~ 10 (87-95% of improvement across five model seeds). This finding rests on a prior observation: soft labels carry item-specific signal that label smoothing cannot replicate. Across five smoothing intensities, entropy correlation clusters at r ~ 0.45-0.49, while soft labels reach r = 0.643 (p < 0.001); per-item analysis traces this gap to smoothing's inability to distinguish ambiguous items from clear ones. The soft-label advantage replicates across two architectures (DeBERTa, RoBERTa), a non-NLI-pretrained baseline, and an exploratory cross-domain evaluation on content safety. These results suggest that annotation budgets should be informed by the target evaluation metric rather than set uniformly.
- Abstract(参考訳): アノテータがラベルに同意しない場合、その不一致自体が信号を運ぶ -- そして、それを取得するのに必要なアノテータの数は、評価基準に依存する。
また,各項目ごとに100個の独立アノテータ判定を行うデータセットであるChaosNLIをサブサンプルとしたラベル分布のNLIモデルを微調整し,計量依存飽和度を同定する。
我々の3クラスNLI設定では、エントロピー相関(モデルがどの項目に相違があるかを識別するかどうか)は、N〜20~50アノテータを収束させる必要があり、一方、分布一致(KLの発散)はN〜10(モデル種子5種間で87~95%の改善)で飽和する。
ソフトラベルは、ラベルの平滑化が再現できないアイテム固有の信号を運ぶ。
5つの滑らかな強度、r ~ 0.45-0.49 のエントロピー相関クラスター、ソフトラベルは r = 0.643 (p < 0.001) に達する。
ソフトラベルの利点は、2つのアーキテクチャ(DeBERTa、RoBERTa)にまたがって複製される。
これらの結果から,アノテーションの予算は統一的に設定されるのではなく,目標評価基準によって通知されるべきであることが示唆された。
関連論文リスト
- Beyond Distribution Estimation: Simplex Anchored Structural Inference Towards Universal Semi-Supervised Learning [47.92504362652887]
半教師付き学習は、ラベル付きデータが不足し、ラベルなしデータが未知の任意の分布に従う現実的なシナリオにおいて重大な課題に直面している。
我々は、Universal Semi-supervised Learning (UniSSL)として、批判的ながら未探索のパラダイムを定式化する。
本稿では,信頼度の高い擬似ラベルを優先するための分布非依存指標に基づく重み付け戦略と,誤用する可能性のある擬似ラベルを分離するための補助分岐を導入する。
論文 参考訳(メタデータ) (2026-05-08T10:33:09Z) - Reliable Active Learning from Unreliable Labels via Neural Collapse Geometry [5.1511135538176]
アクティブラーニング(AL)は、情報的なサンプルを優先順位付けすることでアノテーションのコストを削減することを約束するが、ラベルがうるさい場合やデータ分散がシフトした場合、その信頼性は低下する。
本稿では,深層ネットワークの創発的幾何学的規則性を活用し,信頼できない監視に対処するフレームワークである能動学習(NCAL-R)を提案する。
論文 参考訳(メタデータ) (2025-10-10T17:50:31Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - DSLA: Dynamic smooth label assignment for efficient anchor-free object
detection [18.043176234010517]
アンカーフリー検出器は、基本的にオブジェクト検出を密な分類と回帰として定式化する。
局所化の質を推定するために、個別の予測分岐を導入するのが一般的である。
分類と品質評価の実践を掘り下げると、以下の矛盾が観測される。
論文 参考訳(メタデータ) (2022-08-01T12:56:44Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Instance-Dependent Partial Label Learning [69.49681837908511]
部分ラベル学習は、典型的には弱教師付き学習問題である。
既存のほとんどのアプローチでは、トレーニングサンプルの間違ったラベルがランダムに候補ラベルとして選択されていると仮定している。
本稿では,各例が実数で構成された潜在ラベル分布と関連していると仮定する。
論文 参考訳(メタデータ) (2021-10-25T12:50:26Z) - Few-shot Slot Tagging with Collapsed Dependency Transfer and
Label-enhanced Task-adaptive Projection Network [61.94394163309688]
本稿では,現在最先端の少数ショット分類モデルであるTapNetに基づくラベル強化タスク適応プロジェクションネットワーク(L-TapNet)を提案する。
実験結果から,本モデルは1ショット設定で14.64点のF1スコアで最強の少ショット学習ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-10T07:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。