論文の概要: Active clustering for labeling training data
- arxiv url: http://arxiv.org/abs/2110.14521v1
- Date: Wed, 27 Oct 2021 15:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 15:11:58.208183
- Title: Active clustering for labeling training data
- Title(参考訳): 学習データラベリングのためのアクティブクラスタリング
- Authors: Quentin Lutz, \'Elie de Panafieu, Alex Scott, Maya Stein
- Abstract要約: 本稿では,人間専門家がペアワイズクエリに応答する比較的安価なタスクを実行するための,データ収集のトレーニング環境を提案する。
我々は、アイテムをクラスタリングし、その複雑さを分析するのに必要なクエリの平均数を最小化するアルゴリズムを解析する。
- 参考スコア(独自算出の注目度): 0.8029049649310211
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Gathering training data is a key step of any supervised learning task, and it
is both critical and expensive. Critical, because the quantity and quality of
the training data has a high impact on the performance of the learned function.
Expensive, because most practical cases rely on humans-in-the-loop to label the
data. The process of determining the correct labels is much more expensive than
comparing two items to see whether they belong to the same class. Thus
motivated, we propose a setting for training data gathering where the human
experts perform the comparatively cheap task of answering pairwise queries, and
the computer groups the items into classes (which can be labeled cheaply at the
very end of the process). Given the items, we consider two random models for
the classes: one where the set partition they form is drawn uniformly, the
other one where each item chooses its class independently following a fixed
distribution. In the first model, we characterize the algorithms that minimize
the average number of queries required to cluster the items and analyze their
complexity. In the second model, we analyze a specific algorithm family,
propose as a conjecture that they reach the minimum average number of queries
and compare their performance to a random approach. We also propose solutions
to handle errors or inconsistencies in the experts' answers.
- Abstract(参考訳): トレーニングデータの収集は、教師付き学習タスクの重要なステップであり、批判的かつ高価である。
重要となるのは、トレーニングデータの量と品質が学習関数のパフォーマンスに大きな影響を与えるためである。
なぜなら、ほとんどの実践的なケースは、データのラベル付けに人間のループに依存しているからです。
正しいラベルを決定するプロセスは、同じクラスに属するかどうかを確認するために2つの項目を比較するよりもずっと高価である。
そこで本研究では,人間の専門家が対数問合せに対して比較的安価なタスクをこなすためのデータ収集を訓練し,各項目をクラスに分類する(最末期に安価にラベル付けできる)。
これらの項目が与えられた場合、各項目が固定分布に従って独立にクラスを選択する場合と、それらが生成する集合分割が一様に描画される場合の2つのランダムモデルを考える。
第1のモデルでは,アイテムのクラスタ化に必要なクエリ数を最小化し,その複雑性を分析するアルゴリズムを特徴付ける。
第2のモデルでは、特定のアルゴリズム群を分析し、最小平均クエリ数に達すると予測し、その性能をランダムなアプローチと比較する。
また,専門家の回答の誤りや矛盾を扱うソリューションを提案する。
関連論文リスト
- Generating collective counterfactual explanations in score-based
classification via mathematical optimization [4.281723404774889]
インスタンスの反実的な説明は、このインスタンスを最小限に修正して、摂動インスタンスを望ましいクラスに分類する方法を示している。
カウンターファクト・アナリティクスの文献の多くは、単一インスタンスの単一カウントファクト・セッティングに焦点を当てている。
新規な数学的最適化モデルにより、興味ある群における各インスタンスに対する対実的説明を提供する。
論文 参考訳(メタデータ) (2023-10-19T15:18:42Z) - Bipartite Ranking Fairness through a Model Agnostic Ordering Adjustment [54.179859639868646]
本稿では,二部類ランキングにおける公平性を実現するためのモデルに依存しない後処理フレームワークxOrderを提案する。
xOrderは、教師なしおよび教師なしの公正度メトリックを含む、さまざまな分類モデルとランキングフェアネスメトリクスと互換性がある。
提案アルゴリズムを,4つのベンチマークデータセットと2つの実世界の患者電子健康記録リポジトリ上で評価した。
論文 参考訳(メタデータ) (2023-07-27T07:42:44Z) - Cost-Effective Online Contextual Model Selection [14.094350329970537]
我々は,このタスクを,学習者が文脈とともにラベルのないデータポイントを受信する,オンラインコンテキストアクティブモデル選択問題として定式化する。
目標は、ラベルの過剰な量を得ることなく、任意のコンテキストに対して最良のモデルを出力することである。
本稿では,適応モデル選択のためのポリシークラスに定義された新しい不確実性サンプリングクエリ基準に依存する,文脈型アクティブモデル選択アルゴリズム(CAMS)を提案する。
論文 参考訳(メタデータ) (2022-07-13T08:22:22Z) - Unsupervised Crowdsourcing with Accuracy and Cost Guarantees [4.008789789191313]
本稿では,二元的かつ教師なしなアイテム群分類のためのクラウドソーシングプラットフォームにおけるコスト最適利用の問題点について考察する。
本稿では,作業者からラベル予測を取得し,実際のラベルを推定するためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-05T12:14:11Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。