論文の概要: Diversifying Toxicity Search in Large Language Models Through Speciation
- arxiv url: http://arxiv.org/abs/2601.20981v1
- Date: Wed, 28 Jan 2026 19:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.400755
- Title: Diversifying Toxicity Search in Large Language Models Through Speciation
- Title(参考訳): 種分化による大規模言語モデルにおける毒性探索の多様化
- Authors: Onkar Shelar, Travis Desell,
- Abstract要約: ToxSearchは、大きな言語モデル(LLM)をレッドチーム化する実用的なブラックボックスアプローチである。
ToxSearchの特定品質多様性(QD)拡張について述べる。
- 参考スコア(独自算出の注目度): 3.2729350470429783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evolutionary prompt search is a practical black-box approach for red teaming large language models (LLMs), but existing methods often collapse onto a small family of high-performing prompts, limiting coverage of distinct failure modes. We present a speciated quality-diversity (QD) extension of ToxSearch that maintains multiple high-toxicity prompt niches in parallel rather than optimizing a single best prompt. ToxSearch-S introduces unsupervised prompt speciation via a search methodology that maintains capacity-limited species with exemplar leaders, a reserve pool for outliers and emerging niches, and species-aware parent selection that trades off within-niche exploitation and cross-niche exploration. ToxSearch-S is found to reach higher peak toxicity ($\approx 0.73$ vs.\ $\approx 0.47$) and a extreme heavier tail (top-10 median $0.66$ vs.\ $0.45$) than the baseline, while maintaining comparable performance on moderately toxic prompts. Speciation also yields broader semantic coverage under a topic-as-species analysis (higher effective topic diversity $N_1$ and larger unique topic coverage $K$). Finally, species formed are well-separated in embedding space (mean separation ratio $\approx 1.93$) and exhibit distinct toxicity distributions, indicating that speciation partitions the adversarial space into behaviorally differentiated niches rather than superficial lexical variants. This suggests our approach uncovers a wider range of attack strategies.
- Abstract(参考訳): 進化的プロンプトサーチ(Evolutionary prompt search)は、大きな言語モデル(LLM)をレッドで結合する実用的なブラックボックスアプローチであるが、既存の手法は、しばしば高いパフォーマンスのプロンプトの小さなファミリーに崩壊し、異なる障害モードのカバレッジを制限する。
ToxSearchの特定品質多様性(QD)拡張は,複数の高毒性なニッチを並列に維持し,一つの最良なプロンプトを最適化する。
ToxSearch-Sは、先進的なリーダーとキャパシティ限定の種を維持する探索手法、アウトリーチと新興ニッチのための予備プール、およびニッチ内での搾取とクロスニッシュ探索をトレードオフする種を意識した親選択を通じて、教師なしのプロンプト種分化を導入する。
ToxSearch-Sは高い毒性(0.73ドル対)に達する。
\ $\approx 0.47$)および極端に重い尾(トップ10中央値0.66$対)。
ベースラインよりも$0.45$高いが、中程度の毒性のあるプロンプトでは同等のパフォーマンスを維持している。
種別はまた、トピック・アズ・スペック分析(より効果的なトピックの多様性$N_1$とより大きなユニークなトピックのカバレッジ$K$)の下で、より広範なセマンティックカバレッジをもたらす。
最後に、形成された種は、埋め込み空間(平均分離比$$\approx 1.93$)でよく分離され、異なる毒性分布を示し、種分化は、敵の空間を表面的な語彙の変種ではなく、行動的に区別されたニッチに分割することを示している。
これは我々のアプローチが幅広い攻撃戦略を明らかにすることを示唆している。
関連論文リスト
- Evolving Prompts for Toxicity Search in Large Language Models [3.2729350470429783]
ToxSearchは、安定的なループ内でプロンプトを進化させることで、モデルの安全性をテストする進化的フレームワークである。
実用的には有意だが減衰したクロスモデル転送を観察し,ほとんどの標的に対してほぼ半分の毒性を示す。
これらの結果から, 小型で制御可能な摂動は, 系統的な赤チーム構築に有効であることが示唆された。
論文 参考訳(メタデータ) (2025-11-16T07:47:31Z) - ShieldVLM: Safeguarding the Multimodal Implicit Toxicity via Deliberative Reasoning with LVLMs [72.8646625127485]
マルチモーダルな暗黙の毒性は、社会プラットフォームにおける形式的なステートメントとしてだけでなく、有害なダイアログにつながる可能性がある。
単調なテキストや画像のモデレーションの成功にもかかわらず、多モーダルな内容、特に多モーダルな暗黙的な毒性に対する毒性の検出は未発見のままである。
マルチモーダルな暗黙的毒性の検出を促進するために,多モーダルな文,プロンプト,ダイアログにおける暗黙的な毒性を認識するモデルであるShieldVLMを構築した。
論文 参考訳(メタデータ) (2025-05-20T07:31:17Z) - Rank, Chunk and Expand: Lineage-Oriented Reasoning for Taxonomy Expansion [17.673293240849787]
本稿では,識別的ランキングと生成的推論を組み合わせ,効率的な分類学拡張のためのプラグイン・アンド・プレイ・フレームワークを提案する。
LoRexは、最先端の手法よりも精度を12%向上し、Wu & Palmerの類似度を5%向上させる。
論文 参考訳(メタデータ) (2025-05-19T16:06:13Z) - Probabilistic Prompt Distribution Learning for Animal Pose Estimation [4.988522046084508]
多種の動物のポーズ推定は、視覚的な多様性と不確実性によって妨げられ、難しいが重要な課題として現れてきた。
本稿では,ビジョン・ランゲージ事前学習モデル(例えばCLIP)を効率的に学習することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T13:06:26Z) - Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。
分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文 参考訳(メタデータ) (2024-06-25T10:08:45Z) - A suite of diagnostic metrics for characterizing selection schemes [45.74830585715129]
DOSSIERは、8つの手作りメトリクスからなる診断スイートである。
これらのメトリクスは、エクスプロイト、探索、およびそれらの相互作用のために、実験的に特定の能力を測定するように設計されている。
DOSSIERを6つの一般的な選択スキームに適用する: トランケーション、トーナメント、フィットネス共有、レキシケース、非支配的なソート、ノベルティ検索。
論文 参考訳(メタデータ) (2022-04-29T01:05:51Z) - Few-shot Forgery Detection via Guided Adversarial Interpolation [56.59499187594308]
既存の偽造検出手法は、見知らぬ新しい偽造手法に適用した場合、大幅な性能低下に悩まされる。
本稿では,数発の偽造検出問題を克服するために,GAI(Guid Adversarial Interpolation)を提案する。
我々の手法は、多数派と少数派の偽造アプローチの選択に対して堅牢であることが検証されている。
論文 参考訳(メタデータ) (2022-04-12T16:05:10Z) - LSDAT: Low-Rank and Sparse Decomposition for Decision-based Adversarial
Attack [74.5144793386864]
LSDATは、入力サンプルのスパース成分と対向サンプルのスパース成分によって形成される低次元部分空間における摂動を加工する。
LSDは画像ピクセル領域で直接動作し、スパース性などの非$ell$制約が満たされることを保証します。
論文 参考訳(メタデータ) (2021-03-19T13:10:47Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。