論文の概要: QActor: On-line Active Learning for Noisy Labeled Stream Data
- arxiv url: http://arxiv.org/abs/2001.10399v1
- Date: Tue, 28 Jan 2020 15:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 02:17:04.972202
- Title: QActor: On-line Active Learning for Noisy Labeled Stream Data
- Title(参考訳): QActor: ノイズラベル付きストリームデータのためのオンラインアクティブラーニング
- Authors: Taraneh Younesian, Zilong Zhao, Amirmasoud Ghiassi, Robert Birke,
Lydia Y. Chen
- Abstract要約: そこで本研究では,品質モデルによるクリーンなサンプルの選択と,最も情報に富む真のラベルに対する託宣を積極的にクエリするQActorを提案する。
QActorは、データフィルタリングのための品質モデルの利点と、最も情報性の高いデータのクリーニングのためのオラクルクエリを素早く組み合わせます。
QActorの中心的な機能は、各データバッチの学習損失に応じてクエリ制限を動的に調整することである。
- 参考スコア(独自算出の注目度): 10.814099534254922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Noisy labeled data is more a norm than a rarity for self-generated content
that is continuously published on the web and social media. Due to privacy
concerns and governmental regulations, such a data stream can only be stored
and used for learning purposes in a limited duration. To overcome the noise in
this on-line scenario we propose QActor which novel combines: the selection of
supposedly clean samples via quality models and actively querying an oracle for
the most informative true labels. While the former can suffer from low data
volumes of on-line scenarios, the latter is constrained by the availability and
costs of human experts. QActor swiftly combines the merits of quality models
for data filtering and oracle queries for cleaning the most informative data.
The objective of QActor is to leverage the stringent oracle budget to robustly
maximize the learning accuracy. QActor explores various strategies combining
different query allocations and uncertainty measures. A central feature of
QActor is to dynamically adjust the query limit according to the learning loss
for each data batch. We extensively evaluate different image datasets fed into
the classifier that can be standard machine learning (ML) models or deep neural
networks (DNN) with noise label ratios ranging between 30% and 80%. Our results
show that QActor can nearly match the optimal accuracy achieved using only
clean data at the cost of at most an additional 6% of ground truth data from
the oracle.
- Abstract(参考訳): ノイズの多いラベル付きデータは、webやソーシャルメディアで継続的に公開される自己生成コンテンツのラリティというよりは、むしろ規範である。
プライバシーの懸念と政府の規制のため、そのようなデータストリームは限られた期間でのみ保存され、学習目的に使用できる。
このオンラインシナリオにおけるノイズを克服するために、品質モデルによるクリーンなサンプルの選択と、最も情報に富んだ真のラベルに対するオラクルの問い合わせという、斬新な組み合わせのQActorを提案する。
前者はオンラインシナリオの少ないデータボリュームに悩まされるが、後者は人間の専門家の可用性とコストに制約される。
QActorは、データフィルタリングのための品質モデルの利点と、最も情報性の高いデータのクリーニングのためのオラクルクエリを素早く組み合わせます。
QActorの目的は、厳格なオラクル予算を活用して学習精度を強力に最大化することである。
QActorは、さまざまなクエリ割り当てと不確実性対策を組み合わせたさまざまな戦略について検討している。
QActorの中心的な機能は、各データバッチの学習損失に応じてクエリ制限を動的に調整することである。
我々は、標準機械学習モデル(ML)やディープニューラルネットワーク(DNN)のような分類器に入力された異なる画像データセットを、30%から80%のノイズラベル比で広範囲に評価する。
以上の結果から,QActorはクリーンなデータのみを用いて達成される最適精度とほぼ一致し,少なくとも6パーセントの地上真実データがオラクルから得られた。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - MeaeQ: Mount Model Extraction Attacks with Efficient Queries [6.1106195466129485]
自然言語処理(NLP)におけるモデル抽出攻撃の研究
これらの問題に対処する単純で効果的な方法であるMeaeQを提案する。
MeaeQは、クエリを少なくしながら、ベースラインよりも犠牲者モデルに高い機能的類似性を実現する。
論文 参考訳(メタデータ) (2023-10-21T16:07:16Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - Cost-Effective Online Contextual Model Selection [14.094350329970537]
我々は,このタスクを,学習者が文脈とともにラベルのないデータポイントを受信する,オンラインコンテキストアクティブモデル選択問題として定式化する。
目標は、ラベルの過剰な量を得ることなく、任意のコンテキストに対して最良のモデルを出力することである。
本稿では,適応モデル選択のためのポリシークラスに定義された新しい不確実性サンプリングクエリ基準に依存する,文脈型アクティブモデル選択アルゴリズム(CAMS)を提案する。
論文 参考訳(メタデータ) (2022-07-13T08:22:22Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。