論文の概要: Labelling Data with Unknown References
- arxiv url: http://arxiv.org/abs/2506.03083v2
- Date: Thu, 05 Jun 2025 22:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 13:19:54.242379
- Title: Labelling Data with Unknown References
- Title(参考訳): 未知の参照でデータをラップする
- Authors: Adrian de Wynter,
- Abstract要約: ラベラーとしての性能を測定するための合意された方法が存在する場合、評価者は信頼に値する。
既存の参照を使わずに評価者への信頼を確立するアルゴリズムを導入する。
これは、評価者が実際にコーパスをラベル付けする方法を知っている場合、No-Data Algorithmがその出力を受け入れるように、信頼性を確立するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An evaluator is trustworthy when there exists some agreed-upon way to measure its performance as a labeller. The two ways to establish trustworthiness are either by testing it, or by assuming the evaluator `knows' somehow the way to label the corpus. However, if labelled references (e.g., a development set) are unavailable, neither of these approaches work: the former requires the data, and the latter is an assumption, not evidence. To address this, we introduce an algorithm (the `No-Data Algorithm') by which to establish trust in an evaluator without any existing references. Our algorithm works by successively posing challenges to said evaluator. We show that this is sufficient to establish trustworthiness w.h.p., in such a way that when the evaluator actually knows the way to label the corpus, the No-Data Algorithm accepts its output; and, conversely, flags untrustworthy evaluators when these are unable to prove it. We present formal proofs of correctness and limited experiments.
- Abstract(参考訳): ラベラーとしての性能を測定するための合意された方法が存在する場合、評価者は信頼に値する。
信頼を確立するための2つの方法は、それをテストするか、あるいはコーパスをラベル付けする方法として評価者 ‘知識’ を仮定することです。
しかし、ラベル付き参照(例えば開発セット)が利用できない場合、どちらのアプローチも機能しない:前者はデータを必要とし、後者は証拠ではなく仮定である。
これを解決するために,既存の参照なしに評価者への信頼を確立するアルゴリズム("No-Data Algorithm")を導入する。
我々のアルゴリズムは、その評価器に連続的に課題を提起することで機能する。
評価者が実際にコーパスをラベル付けする方法を知っている場合、No-Data Algorithmはその出力を受け取り、逆に、信頼できない評価者が証明できないときにフラグを立てる。
正当性および限定実験の形式的証明を示す。
関連論文リスト
- SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - Deep Assessment of Code Review Generation Approaches: Beyond Lexical Similarity [27.92468098611616]
コードレビューを評価するための2つの新しいセマンティックベースのアプローチを提案する。
最初のアプローチでは、生成されたレビューと参照の両方をディープラーニングモデルを使用してデジタルベクトルに変換する。
2つ目のアプローチは、生成されたレビューとその参照に基づいてプロンプトを生成し、このプロンプトをChatGPTに送信し、生成されたレビューを評価するためにChatGPTを要求する。
論文 参考訳(メタデータ) (2025-01-09T11:52:32Z) - Identifying Inaccurate Descriptions in LLM-generated Code Comments via Test Execution [11.418182511485032]
3つの大言語モデル(LLM)が生成するコメントを評価する。
文書をLCMを用いて検証し、文書に基づいてテストを生成し、それらのテストを実行し、通過するかどうかを観察する文書テストの概念を提案する。
論文 参考訳(メタデータ) (2024-06-21T02:40:34Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Confidence Estimation Using Unlabeled Data [12.512654188295764]
トレーニングラベルがほとんど利用できない場合, 半教師付き設定に対する最初の信頼度推定法を提案する。
トレーニングの一貫性を代理関数として使用し、信頼度推定のための一貫性ランキング損失を提案する。
画像分類とセグメンテーションの両方のタスクにおいて,本手法は信頼度推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-19T20:11:30Z) - Learning with Proper Partial Labels [87.65718705642819]
部分ラベル学習は、不正確なラベルを持つ弱い教師付き学習の一種である。
この適切な部分ラベル学習フレームワークには,従来の部分ラベル学習設定が数多く含まれていることを示す。
次に、分類リスクの統一的非バイアス推定器を導出する。
論文 参考訳(メタデータ) (2021-12-23T01:37:03Z) - Confident in the Crowd: Bayesian Inference to Improve Data Labelling in
Crowdsourcing [0.30458514384586394]
我々は,コスト削減を図りながら,ラベルの品質を向上させる新しい手法を提案する。
本稿では,ベイズ推定などのより洗練された手法を用いてラベルラの性能を計測する。
提案手法は,群集内で不一致が発生した場合に高い信頼性を維持しつつ,コストと精度の両方で標準的な投票方法より優れる。
論文 参考訳(メタデータ) (2021-05-28T17:09:45Z) - Pointwise Binary Classification with Pairwise Confidence Comparisons [97.79518780631457]
ペアワイズ比較(Pcomp)分類を提案し、ラベルのないデータのペアしか持たない。
我々はPcomp分類をノイズラベル学習に結びつけて、進歩的UREを開発し、一貫性の正則化を課すことにより改善する。
論文 参考訳(メタデータ) (2020-10-05T09:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。