論文の概要: AdversariaLLM: A Unified and Modular Toolbox for LLM Robustness Research
- arxiv url: http://arxiv.org/abs/2511.04316v1
- Date: Thu, 06 Nov 2025 12:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.416534
- Title: AdversariaLLM: A Unified and Modular Toolbox for LLM Robustness Research
- Title(参考訳): AdversariaLLM: LLMロバストネス研究のための統一的でモジュラーなツールボックス
- Authors: Tim Beyer, Jonas Dornbusch, Jakob Steimle, Moritz Ladenburger, Leo Schwinn, Stephan Günnemann,
- Abstract要約: AdversariaLLMは、ジェイルブレイク堅牢性研究を行うためのツールボックスである。
12の敵攻撃アルゴリズムを実装し、有害性、過剰な拒絶、ユーティリティ評価にまたがる7つのベンチマークデータセットを統合し、Hugging Faceを通じて幅広いオープンウェイトLLMへのアクセスを提供する。
name は、コンパニオンパッケージの judgeZoo を通じて判断も統合しており、独立して使用することもできる。
- 参考スコア(独自算出の注目度): 42.296088824743684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid expansion of research on Large Language Model (LLM) safety and robustness has produced a fragmented and oftentimes buggy ecosystem of implementations, datasets, and evaluation methods. This fragmentation makes reproducibility and comparability across studies challenging, hindering meaningful progress. To address these issues, we introduce AdversariaLLM, a toolbox for conducting LLM jailbreak robustness research. Its design centers on reproducibility, correctness, and extensibility. The framework implements twelve adversarial attack algorithms, integrates seven benchmark datasets spanning harmfulness, over-refusal, and utility evaluation, and provides access to a wide range of open-weight LLMs via Hugging Face. The implementation includes advanced features for comparability and reproducibility such as compute-resource tracking, deterministic results, and distributional evaluation techniques. \name also integrates judging through the companion package JudgeZoo, which can also be used independently. Together, these components aim to establish a robust foundation for transparent, comparable, and reproducible research in LLM safety.
- Abstract(参考訳): LLM(Large Language Model)の安全性と堅牢性に関する研究の急速な拡大は、実装、データセット、評価メソッドの断片化され、しばしばバグの多いエコシステムを生み出しました。
この断片化は、再現性と研究間の互換性を困難にし、有意義な進歩を妨げる。
これらの問題に対処するために,LLM脱獄堅牢性研究を行うためのツールボックスであるAdversariaLLMを紹介する。
設計は再現性、正確性、拡張性に重点を置いている。
このフレームワークは12の敵攻撃アルゴリズムを実装し、有害性、過剰な拒絶、ユーティリティ評価にまたがる7つのベンチマークデータセットを統合し、Hugging Faceを介して幅広いオープンウェイトLLMへのアクセスを提供する。
この実装には、計算資源追跡、決定論的結果、分散評価技術などの、互換性と再現性のための高度な機能が含まれている。
\nameはコンパニオンパッケージの judgeZoo を通じて判断も統合しており、独立して使用することもできる。
これらのコンポーネントは、LLMの安全性において、透明で、同等で、再現可能な研究のための堅牢な基盤を確立することを目的としている。
関連論文リスト
- Uncovering Bias Paths with LLM-guided Causal Discovery: An Active Learning and Dynamic Scoring Approach [1.5498930424110338]
大規模言語モデル(LLM)は、統計的因果発見(CD)アプローチを有望に補完する。
機械学習における公平性を保証するには、センシティブな属性が結果に因果的にどのように影響するかを理解する必要がある。
本稿では,BFS(Broadth-first Search)戦略を拡張し,アクティブラーニングと動的スコアリングを併用したCD用LLMベースのハイブリッドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T21:04:03Z) - EVA-MILP: Towards Standardized Evaluation of MILP Instance Generation [13.49043811341421]
混合整数線形プログラミング(MILP)は、複雑な意思決定問題を解決するための基礎となる。
多様なデータセットに対する機械学習の需要により,MILPインスタンス生成手法の普及が加速し,標準化された評価手法が大幅に向上した。
本稿では,MILPインスタンス生成手法の体系的および客観的評価を目的とした総合ベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T16:42:15Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm [14.517103323409307]
Sim-to-realのギャップは、トレーニングとテスト環境の相違を表している。
この課題に対処するための有望なアプローチは、分布的に堅牢なRLである。
我々は対話型データ収集によるロバストなRLに取り組み、証明可能なサンプル複雑性を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-04T16:40:22Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。