論文の概要: FastAT Benchmark: A Comprehensive Framework for Fair Evaluation of Fast Adversarial Training Methods
- arxiv url: http://arxiv.org/abs/2604.22853v1
- Date: Wed, 22 Apr 2026 09:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.994239
- Title: FastAT Benchmark: A Comprehensive Framework for Fair Evaluation of Fast Adversarial Training Methods
- Title(参考訳): FastAT Benchmark: 高速競争訓練手法の評価のための総合的なフレームワーク
- Authors: Chao Pan, Xin Yao,
- Abstract要約: FastATは、標準的なマルチステップ手法によって得られた計算コストのごく一部で、逆の堅牢性を達成することを目的としている。
このベンチマークは、FastATメソッドを1つに20以上実装し、直接および再現可能な比較を可能にする。
ソースコード、設定ファイル、実験結果を含む完全なベンチマークは、将来のFastAT研究の透明性と公正な評価をサポートするために公開されている。
- 参考スコア(独自算出の注目度): 8.817889164606544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fast Adversarial Training (FastAT) seeks to achieve adversarial robustness at a fraction of the computational cost incurred by standard multi-step methods such as PGD-AT. Although numerous FastAT techniques have been proposed in recent years, fair comparison among them remains elusive. Existing benchmarks and public leaderboards typically permit diverse model architectures, varying training configurations, and external data sources, making it unclear whether reported improvements reflect genuine algorithmic advances or merely more favorable experimental conditions. To address this problem, we introduce the FastAT Benchmark, a controlled evaluation framework built on three core design principles: unified architecture requirements, standardized training settings, and strict prohibition of external or synthetic data. The benchmark implements over twenty representative FastAT methods within a single codebase, enabling direct and reproducible comparison. Each method is assessed through a dual-metric evaluation framework that measures both adversarial robustness (accuracy under PGD, AutoAttack, and CR Attack) and computational cost (GPU training time and peak memory footprint). Comprehensive experiments on CIFAR-10, CIFAR-100, and Tiny-ImageNet provide reliable baseline measurements and reveal that well-designed single-step methods can match or surpass PGD-AT robustness at substantially lower cost, while no single method dominates across all evaluation dimensions. The complete benchmark, including source code, configuration files, and experimental results, is publicly available to support transparent and fair evaluation of future FastAT research.
- Abstract(参考訳): Fast Adversarial Training (FastAT) は、PGD-ATのような標準的な多段階法によって得られる計算コストのごく一部で、逆の堅牢性を達成することを目指している。
近年、多くのFastAT技術が提案されているが、両者の公正な比較はいまだに解明されていない。
既存のベンチマークと公開リーダボードは、さまざまなモデルアーキテクチャ、さまざまなトレーニング構成、外部データソースを許可する。
この問題に対処するために,アーキテクチャの統一要件,標準化されたトレーニング設定,外部データや合成データの厳格な禁止という3つの基本設計原則に基づいて構築された,制御された評価フレームワークであるFastAT Benchmarkを紹介した。
このベンチマークは1つのコードベースで20以上のFastATメソッドを実装しており、直接的かつ再現可能な比較を可能にする。
各手法は、敵対的ロバスト性(PGD、オートアタック、CRアタックの精度)と計算コスト(GPUトレーニング時間とピークメモリフットプリント)を計測する2次元評価フレームワークによって評価される。
CIFAR-10、CIFAR-100、Tiny-ImageNetの総合的な実験は、信頼性の高いベースライン測定を提供し、よく設計された単一ステップ法がPGD-ATロバスト性とほぼ低コストで一致または超えることを示した。
ソースコード、設定ファイル、実験結果を含む完全なベンチマークは、将来のFastAT研究の透明性と公正な評価をサポートするために公開されている。
関連論文リスト
- Easy Data Unlearning Bench [53.1304932656586]
アンラーニングアルゴリズムの評価を簡略化する統一型ベンチマークスイートを導入する。
セットアップとメトリクスの標準化により、未学習のメソッド間で再現性、拡張性、公正な比較が可能になる。
論文 参考訳(メタデータ) (2026-02-18T12:20:32Z) - SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding [3.876913658180685]
投機的復号化(SD)は,Large Language Model(LLM)推論を高速化する重要な手法として登場した。
以前のベンチマークでは、タスクの多様性の制限、スループット指向の評価の不十分なサポート、プロダクション環境を反映できないハイレベルな実装への依存に悩まされていた。
SPEED-Benchは多種多様な意味領域と現実的なサービス体制をまたいだSD評価を標準化するために設計された総合的なスイートである。
論文 参考訳(メタデータ) (2026-02-10T16:19:56Z) - Probabilistic Robustness for Free? Revisiting Training via a Benchmark [32.5326368397097]
確率的堅牢性一般化(PR)は、摂動の下で予測が正しい確率を測定する。
PRBenchは、さまざまな堅牢性トレーニング手法によって達成されたPRの改善を評価するための最初のベンチマークである。
論文 参考訳(メタデータ) (2025-11-03T16:33:57Z) - LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。
絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。
分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文 参考訳(メタデータ) (2025-10-01T12:52:25Z) - A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility [47.56466996118911]
Reasoningは、言語モデル(LM)の次の主要フロンティアとして登場した。
我々は総合的な実証的研究を行い、現在の数学的推論ベンチマークは微妙な実装選択に対して非常に敏感であることがわかった。
本稿では,ベストプラクティスと報告基準を明確に定義した標準化された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-09T17:58:17Z) - Benchmarking Neural Network Training Algorithms [52.890134877995195]
トレーニングアルゴリズムは、ディープラーニングパイプラインに不可欠な部分です。
コミュニティとして、トレーニングアルゴリズムの改善を確実に特定することはできない。
固定ハードウェア上で実行される複数のワークロードを使用した,新たな,競争力のある,時間と時間のベンチマークを導入する。
論文 参考訳(メタデータ) (2023-06-12T15:21:02Z) - A Comprehensive Study on Robustness of Image Classification Models:
Benchmarking and Rethinking [54.89987482509155]
ディープニューラルネットワークのロバスト性は、通常、敵の例、共通の腐敗、分散シフトに欠けている。
画像分類タスクにおいてtextbfARES-Bench と呼ばれる総合的なベンチマークロバスト性を確立する。
それに応じてトレーニング設定を設計することにより、新しい最先端の対人ロバスト性を実現する。
論文 参考訳(メタデータ) (2023-02-28T04:26:20Z) - FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural
Language Understanding [89.92513889132825]
本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。
評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2021-09-27T00:57:30Z) - FLEX: Unifying Evaluation for Few-Shot NLP [17.425495611344786]
我々はデシデラタを理想的な数ショットのNLPベンチマークとして定式化する。
最初のベンチマーク、公開リーダボード、フレームワークであるFLEXを紹介します。
また、数ショット学習のためのシンプルだが強力なプロンプトベースモデルであるUniFewも紹介する。
論文 参考訳(メタデータ) (2021-07-15T07:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。