論文の概要: QActor: On-line Active Learning for Noisy Labeled Stream Data
- arxiv url: http://arxiv.org/abs/2001.10399v1
- Date: Tue, 28 Jan 2020 15:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 02:17:04.972202
- Title: QActor: On-line Active Learning for Noisy Labeled Stream Data
- Title(参考訳): QActor: ノイズラベル付きストリームデータのためのオンラインアクティブラーニング
- Authors: Taraneh Younesian, Zilong Zhao, Amirmasoud Ghiassi, Robert Birke,
Lydia Y. Chen
- Abstract要約: そこで本研究では,品質モデルによるクリーンなサンプルの選択と,最も情報に富む真のラベルに対する託宣を積極的にクエリするQActorを提案する。
QActorは、データフィルタリングのための品質モデルの利点と、最も情報性の高いデータのクリーニングのためのオラクルクエリを素早く組み合わせます。
QActorの中心的な機能は、各データバッチの学習損失に応じてクエリ制限を動的に調整することである。
- 参考スコア(独自算出の注目度): 10.814099534254922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Noisy labeled data is more a norm than a rarity for self-generated content
that is continuously published on the web and social media. Due to privacy
concerns and governmental regulations, such a data stream can only be stored
and used for learning purposes in a limited duration. To overcome the noise in
this on-line scenario we propose QActor which novel combines: the selection of
supposedly clean samples via quality models and actively querying an oracle for
the most informative true labels. While the former can suffer from low data
volumes of on-line scenarios, the latter is constrained by the availability and
costs of human experts. QActor swiftly combines the merits of quality models
for data filtering and oracle queries for cleaning the most informative data.
The objective of QActor is to leverage the stringent oracle budget to robustly
maximize the learning accuracy. QActor explores various strategies combining
different query allocations and uncertainty measures. A central feature of
QActor is to dynamically adjust the query limit according to the learning loss
for each data batch. We extensively evaluate different image datasets fed into
the classifier that can be standard machine learning (ML) models or deep neural
networks (DNN) with noise label ratios ranging between 30% and 80%. Our results
show that QActor can nearly match the optimal accuracy achieved using only
clean data at the cost of at most an additional 6% of ground truth data from
the oracle.
- Abstract(参考訳): ノイズの多いラベル付きデータは、webやソーシャルメディアで継続的に公開される自己生成コンテンツのラリティというよりは、むしろ規範である。
プライバシーの懸念と政府の規制のため、そのようなデータストリームは限られた期間でのみ保存され、学習目的に使用できる。
このオンラインシナリオにおけるノイズを克服するために、品質モデルによるクリーンなサンプルの選択と、最も情報に富んだ真のラベルに対するオラクルの問い合わせという、斬新な組み合わせのQActorを提案する。
前者はオンラインシナリオの少ないデータボリュームに悩まされるが、後者は人間の専門家の可用性とコストに制約される。
QActorは、データフィルタリングのための品質モデルの利点と、最も情報性の高いデータのクリーニングのためのオラクルクエリを素早く組み合わせます。
QActorの目的は、厳格なオラクル予算を活用して学習精度を強力に最大化することである。
QActorは、さまざまなクエリ割り当てと不確実性対策を組み合わせたさまざまな戦略について検討している。
QActorの中心的な機能は、各データバッチの学習損失に応じてクエリ制限を動的に調整することである。
我々は、標準機械学習モデル(ML)やディープニューラルネットワーク(DNN)のような分類器に入力された異なる画像データセットを、30%から80%のノイズラベル比で広範囲に評価する。
以上の結果から,QActorはクリーンなデータのみを用いて達成される最適精度とほぼ一致し,少なくとも6パーセントの地上真実データがオラクルから得られた。
関連論文リスト
- MeaeQ: Mount Model Extraction Attacks with Efficient Queries [6.1106195466129485]
自然言語処理(NLP)におけるモデル抽出攻撃の研究
これらの問題に対処する単純で効果的な方法であるMeaeQを提案する。
MeaeQは、クエリを少なくしながら、ベースラインよりも犠牲者モデルに高い機能的類似性を実現する。
論文 参考訳(メタデータ) (2023-10-21T16:07:16Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot
Question Answering [68.52980461474752]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - Cost-Effective Online Contextual Model Selection [14.094350329970537]
我々は,このタスクを,学習者が文脈とともにラベルのないデータポイントを受信する,オンラインコンテキストアクティブモデル選択問題として定式化する。
目標は、ラベルの過剰な量を得ることなく、任意のコンテキストに対して最良のモデルを出力することである。
本稿では,適応モデル選択のためのポリシークラスに定義された新しい不確実性サンプリングクエリ基準に依存する,文脈型アクティブモデル選択アルゴリズム(CAMS)を提案する。
論文 参考訳(メタデータ) (2022-07-13T08:22:22Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。