Fugu-MT 論文翻訳(概要): Auto-ART: Structured Literature Synthesis and Automated Adversarial Robustness Testing

論文の概要: Auto-ART: Structured Literature Synthesis and Automated Adversarial Robustness Testing

arxiv url: http://arxiv.org/abs/2604.20704v1
Date: Wed, 22 Apr 2026 15:46:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:11.205327
Title: Auto-ART: Structured Literature Synthesis and Automated Adversarial Robustness Testing
Title（参考訳）: Auto-ART:構造化文学合成と対向ロバストネス自動テスト
Authors: Abhijit Talluri,
Abstract要約: 我々は7つの補完プロトコルを用いて9つのピアレビューコーパスソースを分析した。特定ギャップを運用するオープンソースのフレームワークであるAuto-ARTを紹介します。 RobustBenchの実証検証では、Auto-ARTの事前スクリーニングでは、フラグ付きケースの92%で勾配マスキングが特定されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Adversarial robustness evaluation underpins every claim of trustworthy ML deployment, yet the field suffers from fragmented protocols and undetected gradient masking. We make two contributions. (1) Structured synthesis. We analyze nine peer-reviewed corpus sources (2020--2026) through seven complementary protocols, producing the first end-to-end structured analysis of the field's consensus and unresolved challenges. (2) Auto-ART framework. We introduce Auto-ART, an open-source framework that operationalizes identified gaps: 50+ attacks, 28 defense modules, the Robustness Diagnostic Index (RDI), and gradient-masking detection. It supports multi-norm evaluation (l1/l2/linf/semantic/spatial) and compliance mapping to NIST AI RMF, OWASP LLM Top 10, and the EU AI Act. Empirical validation on RobustBench demonstrates that Auto-ART's pre-screening identifies gradient masking in 92% of flagged cases, and RDI rankings correlate highly with full AutoAttack. Multi-norm evaluation exposes a 23.5 pp gap between average and worst-case robustness on state-of-the-art models. No prior work combines such structured meta-scientific analysis with an executable evaluation framework bridging literature gaps into engineering.
Abstract（参考訳）: 敵の堅牢性評価は、信頼できるMLデプロイメントのすべての主張を裏付けるものだが、フィールドは断片化されたプロトコルと検出されていない勾配マスキングに悩まされている。私たちは2つの貢献をします。 (1)構造化合成。我々は、9つのピアレビューコーパスソース(2020-2026)を7つの補完プロトコルを通して分析し、フィールドのコンセンサスと未解決課題のエンドツーエンド構造解析を初めて生成する。 (2)Auto-ARTフレームワーク。我々は、50以上の攻撃、28の防衛モジュール、ロバストネス診断指標(RDI)、勾配マスキング検出といった、特定ギャップを運用するオープンソースのフレームワークであるAuto-ARTを紹介した。マルチノーム評価(l1/l2/linf/semantic/spatial)と、NIST AI RMF、OWASP LLM Top 10、EU AI Actへのコンプライアンスマッピングをサポートする。 RobustBenchの実証検証では、Auto-ARTの事前スクリーニングでは、フラグ付きケースの92%が勾配マスキングであり、RDIランキングはフルAutoAttackと高い相関性を示している。マルチノーム評価は、最先端モデルにおける平均と最悪のケースのロバスト性の間に23.5ppのギャップを露呈する。このような構造化されたメタ科学的分析と、文学的ギャップをエンジニアリングに埋める実行可能な評価フレームワークを組み合わせた以前の研究はない。

関連論文リスト

Are we still able to recognize pearls? Machine-driven peer review and the risk to creativity: An explainable RAG-XAI detection framework with markers extraction [7.723181091241251]
本稿では、レビュー品質を評価し、自動パターンを検出するための説明可能なフレームワーク(RAG-XAI)を提案する。 XGBoost、Random Forest、LightGBMは99.61%、AUC-ROCは0.999以上、F1スコアは0.9925である。
論文参考訳（メタデータ） (2026-04-09T08:25:49Z)
PSR2: A Phase-based Semantic Reasoning Framework for Atomicity Violation Detection via Contract Refinement [9.36682660657815]
PSRtextsuperscript2は、構造経路探索と決定論的意味推論を統合する新しい静的解析フレームワークである。 1,600のコントラクトサンプルの実験では、PSRtextsuperscript2がパターンマッチングベースラインを著しく上回っている。我々の融合論理は、単一モジュール解析と比較して、偽陽性率を半減する。
論文参考訳（メタデータ） (2026-04-08T11:46:01Z)
Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。 Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文参考訳（メタデータ） (2026-03-23T14:48:54Z)
Synergistic Directed Execution and LLM-Driven Analysis for Zero-Day AI-Generated Malware Detection [0.12891210250935145]
自動マルウェア生成のためのLLMのウェポン化は、従来の検出パラダイムに現実的な脅威をもたらす。本稿では,エスココール実行とエンフディープ学習に基づく脆弱性分類を組み合わせた,新しいハイブリッド分析フレームワークを提案する。 2,500 LLM合成サンプルからなるベンチマークでは、従来のマルウェアでは98.7%、AIによる脅威では97.5%の精度が達成されている。
論文参考訳（メタデータ） (2026-03-10T00:25:41Z)
Chunking, Retrieval, and Re-ranking: An Empirical Evaluation of RAG Architectures for Policy Document Question Answering [0.0]
大規模言語モデル(LLM)の公衆衛生政策分野への統合は、疾病管理予防センター(CDC)などの機関が管理する規制ガイダンスの膨大なリポジトリをナビゲートするための変革的なアプローチを提供する。 LLMが幻覚を発生させることの正当性は、情報整合性が不可能なハイテイク環境において、これらの技術を採用する上で重要な障壁となる。この経験的評価は、信頼できる文書コンテキストにおける生成出力を基盤として、これらのリスクを軽減するために、検索型拡張生成(RAG)アーキテクチャの有効性を探求するものである。
論文参考訳（メタデータ） (2026-01-21T20:52:48Z)
SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。 SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文参考訳（メタデータ） (2026-01-14T04:42:19Z)
Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。 RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。 AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文参考訳（メタデータ） (2025-04-21T04:56:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。