Fugu-MT 論文翻訳(概要): Improving the Efficiency of Self-Supervised Adversarial Training through Latent Clustering-Based Selection

論文の概要: Improving the Efficiency of Self-Supervised Adversarial Training through Latent Clustering-Based Selection

arxiv url: http://arxiv.org/abs/2501.10466v1
Date: Wed, 15 Jan 2025 15:47:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.026368
Title: Improving the Efficiency of Self-Supervised Adversarial Training through Latent Clustering-Based Selection
Title（参考訳）: 潜在クラスタリングによる自己監督型対人訓練の効率化
Authors: Somrita Ghosh, Yuelin Xu, Xiao Zhang,
Abstract要約: 逆向きの堅牢な学習は、トレーニングの例をはるかに多く求めていると広く認識されている。近年の研究では、モデルロバスト性を高めるために、外部または合成された未ラベルデータを用いた自己教師付き対人訓練が提案されている。そこで本稿では,SSATに不可欠なラベルなしデータの小さなサブセットを戦略的に選択し,ロバスト性を向上させる手法を提案する。
参考スコア（独自算出の注目度）: 2.7554677967598047
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Compared with standard learning, adversarially robust learning is widely recognized to demand significantly more training examples. Recent works propose the use of self-supervised adversarial training (SSAT) with external or synthetically generated unlabeled data to enhance model robustness. However, SSAT requires a substantial amount of extra unlabeled data, significantly increasing memory usage and model training times. To address these challenges, we propose novel methods to strategically select a small subset of unlabeled data essential for SSAT and robustness improvement. Our selection prioritizes data points near the model's decision boundary based on latent clustering-based techniques, efficiently identifying a critical subset of unlabeled data with a higher concentration of boundary-adjacent points. While focusing on near-boundary data, our methods are designed to maintain a balanced ratio between boundary and non-boundary data points to avoid overfitting. Our experiments on image benchmarks show that integrating our selection strategies into self-supervised adversarial training can largely reduce memory and computational requirements while achieving high model robustness. In particular, our latent clustering-based selection method with k-means is the most effective, achieving nearly identical test-time robust accuracies with 5 to 10 times less external or generated unlabeled data when applied to image benchmarks. Additionally, we validate the generalizability of our approach across various application scenarios, including a real-world medical dataset for COVID-19 chest X-ray classification.
Abstract（参考訳）: 標準的な学習と比較して、逆向きに頑健な学習が広く認識され、より多くの訓練例が要求される。近年の研究では、モデルロバスト性を高めるために、自己教師付き対人訓練(SSAT)と、外部または合成的に生成された未ラベルデータの利用が提案されている。しかし、SSATは膨大な量のラベルのないデータを必要とし、メモリ使用量とモデルトレーニング時間を著しく増加させます。これらの課題に対処するために、SSATに不可欠なラベルなしデータの小さなサブセットを戦略的に選択し、ロバスト性を改善する新しい手法を提案する。我々の選択は、潜在クラスタリングに基づく手法に基づいて、モデル決定境界付近のデータポイントを優先順位付けし、境界隣接点の濃度が高いラベル付きデータの臨界部分集合を効率的に同定する。本手法は,ニアバウンダリデータに着目しながら,境界値と非バウンダリデータ点とのバランスを保ち,オーバーフィッティングを回避するために設計されている。画像ベンチマーク実験により,選択戦略を自己教師付き対人訓練に統合することで,高いモデルロバスト性を達成しつつ,記憶と計算の要求を大幅に低減できることが示された。特に, k-meansを用いた潜在クラスタリングに基づく選択法が最も効果的であり, 画像ベンチマークに適用した場合, 外部データの5倍から10倍の精度で, ほぼ同一のテスト時間ロバスト精度を実現する。さらに、新型コロナウイルスの胸部X線分類のための実世界の医療データセットを含む、さまざまなアプリケーションシナリオにおけるアプローチの一般化可能性を検証する。

関連論文リスト

Stable Coresets via Posterior Sampling: Aligning Induced and Full Loss Landscapes [7.446140380340418]
Coreset選択は、完全なデータセットのパフォーマンスを近似する、小さな、代表的なデータのサブセットを特定することで、トレーニングを加速することを目的としている。勾配に基づく手法は、特に限られたデータ予算の下で、強力な理論的基盤と実用的な利益のために際立っている。本稿では、これらの制約に対処する新しいフレームワークを提案する。まず、後方サンプリングとロスランドスケープの接続を確立し、高データ破損シナリオにおいてもロバストなコアセット選択を可能にする。
論文参考訳（メタデータ） (2025-11-21T17:00:00Z)
SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
LASER: Stratified Selective Sampling for Instruction Tuning with Dedicated Scoring Strategy [5.130520244165049]
マルチステップパイプラインを使用することで、データ選択が効率的かつ普遍的に可能であることを示す。タスクベースの分類を用いて最終データの構成を制御する。この統合戦略は、最小限のオーバーヘッドで高性能な微調整を可能にする。
論文参考訳（メタデータ） (2025-05-28T09:22:25Z)
Enhancing Classification with Semi-Supervised Deep Learning Using Distance-Based Sample Weights [0.0]
この研究は、テストデータに近接してトレーニングサンプルを優先順位付けする半教師付きフレームワークを提案する。 12のベンチマークデータセットの実験では、精度、精度、リコールなど、主要なメトリクス間で大幅な改善が示されている。このフレームワークは、半教師付き学習のための堅牢で実用的なソリューションを提供する。
論文参考訳（メタデータ） (2025-05-20T13:29:04Z)
Propensity-driven Uncertainty Learning for Sample Exploration in Source-Free Active Domain Adaptation [19.620523416385346]
ソースフリーアクティブドメイン適応(SFADA)は、ソースデータにアクセスせずに、トレーニング済みのモデルを新しいドメインに適応するという課題に対処する。このシナリオは、データプライバシ、ストレージ制限、ラベル付けコストが重要な懸念事項である現実世界のアプリケーションに特に関係している。 Propensity-driven Uncertainty Learning (ProULearn) フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-23T10:05:25Z)
Maximally Separated Active Learning [32.98415531556376]
固定等角超球面点をクラスプロトタイプとして利用する能動的学習法を提案する。 5つのベンチマークデータセットにまたがる既存のアクティブラーニング技術よりも高いパフォーマンスを示す。
論文参考訳（メタデータ） (2024-11-26T14:02:43Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文参考訳（メタデータ） (2024-06-25T16:52:37Z)
Empowering HWNs with Efficient Data Labeling: A Clustered Federated Semi-Supervised Learning Approach [2.046985601687158]
CFL(Clustered Federated Multitask Learning)は,統計的課題を克服するための効果的な戦略として注目されている。本稿では,より現実的なHWNシナリオ用に設計された新しいフレームワークであるClustered Federated Semi-Supervised Learning (CFSL)を紹介する。その結果,ラベル付きデータとラベル付きデータの比率が異なる場合,CFSLはテスト精度,ラベル付け精度,ラベル付け遅延などの重要な指標を著しく改善することがわかった。
論文参考訳（メタデータ） (2024-01-19T11:47:49Z)
Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文参考訳（メタデータ） (2023-08-28T18:48:34Z)
Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。 KL偏差正規化損失関数の最適化により重みを求める。提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文参考訳（メタデータ） (2023-08-01T06:16:18Z)
Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文参考訳（メタデータ） (2023-07-26T16:19:19Z)
Characterizing the Optimal 0-1 Loss for Multi-class Classification with a Test-time Attacker [57.49330031751386]
我々は,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃の存在下での損失に対する情報理論的下位境界を求める。本稿では,データと敵対的制約から競合ハイパーグラフを構築する際に発生する最適0-1損失を求めるための一般的なフレームワークを提供する。
論文参考訳（メタデータ） (2023-02-21T15:17:13Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文参考訳（メタデータ） (2022-05-02T16:09:17Z)
Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文参考訳（メタデータ） (2022-02-07T13:08:11Z)
A new weakly supervised approach for ALS point cloud semantic segmentation [1.4620086904601473]
本稿では,ALS点雲のセマンティックセグメンテーションのための,ディープラーニングに基づく弱教師付きフレームワークを提案する。不完全でスパースなラベルの対象となるラベルのないデータから潜在的情報を利用する。本手法は, 総合精度が83.0%, 平均F1スコアが70.0%であり, それぞれ6.9%, 12.8%増加した。
論文参考訳（メタデータ） (2021-10-04T14:00:23Z)
Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-13T08:24:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。