論文の概要: Black-box optimization and quantum annealing for filtering out mislabeled training instances
- arxiv url: http://arxiv.org/abs/2501.06916v1
- Date: Sun, 12 Jan 2025 19:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:26:33.882911
- Title: Black-box optimization and quantum annealing for filtering out mislabeled training instances
- Title(参考訳): 誤りラベル付きトレーニングインスタンスのフィルタリングのためのブラックボックス最適化と量子アニール
- Authors: Makoto Otsuka, Kento Kodama, Keisuke Morita, Masayuki Ohzeki,
- Abstract要約: 実世界のデータセットで共通する問題であるミスラベルトレーニングインスタンスは、しばしばモデルの一般化を低下させる。
提案手法は、検証損失に基づいてフィルタされたトレーニングサブセットを評価し、後処理を伴う代理モデルに基づくBBOを用いて損失推定を反復的に洗練する。
ノイズの多い多数ビットタスクの実験は、ハイリスクなラベル付きインスタンスの削除を優先する手法の能力を実証している。
- 参考スコア(独自算出の注目度): 0.4499833362998489
- License:
- Abstract: This study proposes an approach for removing mislabeled instances from contaminated training datasets by combining surrogate model-based black-box optimization (BBO) with postprocessing and quantum annealing. Mislabeled training instances, a common issue in real-world datasets, often degrade model generalization, necessitating robust and efficient noise-removal strategies. The proposed method evaluates filtered training subsets based on validation loss, iteratively refines loss estimates through surrogate model-based BBO with postprocessing, and leverages quantum annealing to efficiently sample diverse training subsets with low validation error. Experiments on a noisy majority bit task demonstrate the method's ability to prioritize the removal of high-risk mislabeled instances. Integrating D-Wave's clique sampler running on a physical quantum annealer achieves faster optimization and higher-quality training subsets compared to OpenJij's simulated quantum annealing sampler or Neal's simulated annealing sampler, offering a scalable framework for enhancing dataset quality. This work highlights the effectiveness of the proposed method for supervised learning tasks, with future directions including its application to unsupervised learning, real-world datasets, and large-scale implementations.
- Abstract(参考訳): 本研究では,サロゲートモデルに基づくブラックボックス最適化(BBO)とポストプロセッシングと量子アニールを組み合わせることで,汚染されたトレーニングデータセットからラベル付きインスタンスを除去する手法を提案する。
実世界のデータセットで一般的な問題であるミスラベルトレーニングインスタンスは、しばしばモデルの一般化を低下させ、堅牢で効率的なノイズ除去戦略を必要とする。
提案手法は,検証損失に基づいてフィルタされたトレーニングサブセットを評価し,ポストプロセッシングによるサロゲートモデルに基づくBBOによる損失推定を反復的に洗練し,量子アニールを利用して,検証誤差の低い多様なトレーニングサブセットを効率的にサンプリングする。
ノイズの多い多数ビットタスクの実験は、ハイリスクなラベル付きインスタンスの削除を優先する手法の能力を実証している。
物理量子アニールラー上で動作するD-Waveのclique samplerを統合することで、OpenJijのシミュレートされた量子アニールサンプリングやNealのシミュレートされたアニールサンプルよりも高速な最適化と高品質なトレーニングサブセットを実現し、データセット品質を向上させるスケーラブルなフレームワークを提供する。
本研究は,教師なし学習,実世界のデータセット,大規模実装など,教師なし学習タスクに対する提案手法の有効性を強調した。
関連論文リスト
- LPLgrad: Optimizing Active Learning Through Gradient Norm Sample Selection and Auxiliary Model Training [2.762397703396293]
LPLgrad(Loss Prediction Loss with Gradient Norm)は、モデルの不確実性を効果的に定量化し、画像分類タスクの精度を向上させる。
LPLgradは2つの異なるフェーズで動作する: (i) Em Training Phaseは、メインモデルと補助モデルとを併用して入力特徴の損失を予測することを目的としている。
この二重モデルアプローチは、複雑な入力特徴を抽出し、データから本質的なパターンを効果的に学習する能力を高める。
論文 参考訳(メタデータ) (2024-11-20T18:12:59Z) - Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Data Pruning via Moving-one-Sample-out [61.45441981346064]
我々は移動1サンプルアウト(MoSo)と呼ばれる新しいデータ処理手法を提案する。
MoSoは、トレーニングセットから最も分かりにくいサンプルを特定し、削除することを目的としている。
実験結果から,MoSoは高プルーニング比で高い性能劣化を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2023-10-23T08:00:03Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - Moment Matching Denoising Gibbs Sampling [14.75945343063504]
エネルギーベースモデル(EBM)は、複雑なデータ分散をモデル化するための汎用的なフレームワークを提供する。
スケーラブルなEMMトレーニングのための広く使われているDenoising Score Matching (DSM) 法は、矛盾の問題に悩まされている。
モーメントマッチングを用いた効率的なサンプリングフレームワーク(pseudo)-Gibbsサンプリングを提案する。
論文 参考訳(メタデータ) (2023-05-19T12:58:25Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Non-iterative optimization of pseudo-labeling thresholds for training
object detection models from multiple datasets [2.1485350418225244]
低コストデータセットの集合からオブジェクト検出を学習するために、擬似ラベル閾値を最適化する非定型的手法を提案する。
提案手法はCOCOおよびVOCデータセット上の格子探索に匹敵するmAPを実現することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-19T00:31:34Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。