論文の概要: Learning from Positive and Unlabeled Data by Identifying the Annotation
Process
- arxiv url: http://arxiv.org/abs/2003.01067v1
- Date: Mon, 2 Mar 2020 17:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 04:49:40.917260
- Title: Learning from Positive and Unlabeled Data by Identifying the Annotation
Process
- Title(参考訳): アノテーションプロセスの同定による正・未ラベルデータからの学習
- Authors: Naji Shajarisales, Peter Spirtes, Kun Zhang
- Abstract要約: バイナリ分類では、Learning from Positive and Unlabeled data (LePU)は半教師付き学習であるが、ラベル付き要素は1つのクラスのみである。
LePUの研究の大部分は、注釈付き例の選択プロセスと注釈付きクラスの特徴の間のある種の独立性に依存している。
この作業では、SCARよりもより柔軟で現実的なアノテーションプロセスモデルを導入し、さらに重要なのは、挑戦的なLePU問題に対する解決策を提供します。
- 参考スコア(独自算出の注目度): 9.209803451919855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In binary classification, Learning from Positive and Unlabeled data (LePU) is
semi-supervised learning but with labeled elements from only one class. Most of
the research on LePU relies on some form of independence between the selection
process of annotated examples and the features of the annotated class, known as
the Selected Completely At Random (SCAR) assumption. Yet the annotation process
is an important part of the data collection, and in many cases it naturally
depends on certain features of the data (e.g., the intensity of an image and
the size of the object to be detected in the image). Without any constraints on
the model for the annotation process, classification results in the LePU
problem will be highly non-unique. So proper, flexible constraints are needed.
In this work we incorporate more flexible and realistic models for the
annotation process than SCAR, and more importantly, offer a solution for the
challenging LePU problem. On the theory side, we establish the identifiability
of the properties of the annotation process and the classification function, in
light of the considered constraints on the data-generating process. We also
propose an inference algorithm to learn the parameters of the model, with
successful experimental results on both simulated and real data. We also
propose a novel real-world dataset forLePU, as a benchmark dataset for future
studies.
- Abstract(参考訳): バイナリ分類では、Learning from Positive and Unlabeled data (LePU)は半教師付き学習であるが、ラベル付き要素は1つのクラスのみである。
LePUの研究の大部分は、アノテーション付き例の選択プロセスと、Selected Completely At Random (SCAR) と呼ばれるアノテーション付きクラスの特徴の間のある種の独立性に依存している。
しかし、アノテーションプロセスはデータ収集の重要な部分であり、多くの場合、自然にデータの特定の特徴(画像の強度や画像で検出されるオブジェクトのサイズなど)に依存する。
アノテーションプロセスのモデルに制約がなければ、LePU問題における分類結果は非常に一般的ではない。
そのため、適切な柔軟な制約が必要です。
この作業では、SCARよりもより柔軟で現実的なアノテーションプロセスモデルを導入し、さらに重要なのは、挑戦的なLePU問題に対する解決策を提供します。
理論的には,データ生成過程の制約を考慮し,アノテーションプロセスの性質と分類関数の識別可能性を確立する。
また、シミュレーションデータと実データの両方で実験結果が得られたモデルパラメータを学習するための推論アルゴリズムを提案する。
また,将来の研究のためのベンチマークデータセットとして,新しい実世界のデータセットforlepuを提案する。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Challenging Forgets: Unveiling the Worst-Case Forget Sets in Machine Unlearning [9.998859702421417]
マシン・アンラーニング(MU)は、選択したデータポイントがモデルの性能に与える影響を排除することを目的としている。
データ影響消去のための様々なMU手法にもかかわらず、評価は主にランダムなデータの忘れ方に焦点を当てている。
本稿では,影響消去の最も重要な課題を示すデータサブセットの同定を提案する。
論文 参考訳(メタデータ) (2024-03-12T06:50:32Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - Compositional Exemplars for In-context Learning [21.961094715261133]
大規模な事前学習言語モデル(LM)は、印象的なインコンテキスト学習(ICL)能力を示している。
本稿では,CEIL (Compositional Exemplars for In-context Learning) を提案する。
我々は、感情分析、パラフレーズ検出、自然言語推論、コモンセンス推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるNLPタスクから、CEILを12の分類および生成データセットで検証する。
論文 参考訳(メタデータ) (2023-02-11T14:02:08Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Optimizing Active Learning for Low Annotation Budgets [6.753808772846254]
ディープラーニングでは、アクティブな学習は通常、微調整によって連続した深層モデルを更新する反復的なプロセスとして実装される。
移行学習にインスパイアされたアプローチを用いてこの問題に対処する。
本稿では,ALプロセスの反復性を利用してより堅牢なサンプルを抽出する新しい取得関数を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:53:10Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。