論文の概要: Manifold of Failure: Behavioral Attraction Basins in Language Models
- arxiv url: http://arxiv.org/abs/2602.22291v1
- Date: Wed, 25 Feb 2026 15:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.359286
- Title: Manifold of Failure: Behavioral Attraction Basins in Language Models
- Title(参考訳): 失敗のマニフォールド:言語モデルにおける行動的トラクション盆地
- Authors: Sarthak Munshi, Manish Bhatt, Vineeth Sai Narajala, Idan Habler, AmmarnAl-Kahfah, Ken Huang, Blake Gatto,
- Abstract要約: 本稿では,大規模言語モデル(LLM)における失敗のマニフォールドを体系的にマッピングするフレームワークを提案する。
これらの障害領域の連続的なトポロジを照らすためにMAP-Elitesを用いて、脆弱性の探索を品質多様性問題として再編成する。
3つのLSMにわたって、MAP-Elitesは最大63%の行動カバレッジを実現し、最大370の脆弱性ニッチを発見し、モデル固有のトポロジカルシグネチャが劇的に異なることを示す。
- 参考スコア(独自算出の注目度): 0.49388902330345724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While prior work has focused on projecting adversarial examples back onto the manifold of natural data to restore safety, we argue that a comprehensive understanding of AI safety requires characterizing the unsafe regions themselves. This paper introduces a framework for systematically mapping the Manifold of Failure in Large Language Models (LLMs). We reframe the search for vulnerabilities as a quality diversity problem, using MAP-Elites to illuminate the continuous topology of these failure regions, which we term behavioral attraction basins. Our quality metric, Alignment Deviation, guides the search towards areas where the model's behavior diverges most from its intended alignment. Across three LLMs: Llama-3-8B, GPT-OSS-20B, and GPT-5-Mini, we show that MAP-Elites achieves up to 63% behavioral coverage, discovers up to 370 distinct vulnerability niches, and reveals dramatically different model-specific topological signatures: Llama-3-8B exhibits a near-universal vulnerability plateau (mean Alignment Deviation 0.93), GPT-OSS-20B shows a fragmented landscape with spatially concentrated basins (mean 0.73), and GPT-5-Mini demonstrates strong robustness with a ceiling at 0.50. Our approach produces interpretable, global maps of each model's safety landscape that no existing attack method (GCG, PAIR, or TAP) can provide, shifting the paradigm from finding discrete failures to understanding their underlying structure.
- Abstract(参考訳): 以前の研究は、安全を回復するために自然データの多様体に敵の例を投影することに重点を置いていたが、我々はAIの安全性を包括的に理解するには、安全でない地域自体を特徴づける必要があると論じている。
本稿では,大規模言語モデル(LLM)における失敗のマニフォールドを体系的にマッピングするフレームワークを提案する。
我々は、これらの障害領域の連続的なトポロジを照らし出すためにMAP-Elitesを用いて、品質多様性問題として脆弱性の探索を再構築した。
私たちの品質指標であるアライメント偏差(Alignment Deviation)は、モデルの振る舞いが意図したアライメントから最も離れている領域への探索をガイドします。
Llama-3-8B, GPT-OSS-20B, GPT-5-Miniの3つのLCM全体で、MAP-Elitesは最大63%の行動カバレッジを達成し、最大370の異なる脆弱性ニッチを発見し、劇的に異なるモデル固有のトポロジカルシグニチャを示す。
提案手法は,既存の攻撃手法(GCG, PAIR, TAP)が提供できないような,各モデルの安全景観の解釈可能なグローバルマップを生成する。
関連論文リスト
- When World Models Dream Wrong: Physical-Conditioned Adversarial Attacks against World Models [54.08784776767683]
本稿では,物理条件を乱す最初のホワイトボックス世界モデルアタックであるPhysCond-WMA(PhysCond-WMA)を提案する。
PhysCond-WMAは知覚の忠実さを維持しながら意味、論理、決定レベルの歪みを引き起こす。
論文 参考訳(メタデータ) (2026-02-21T07:22:37Z) - Are Aligned Large Language Models Still Misaligned? [13.062124372682106]
Mis-Align Bench は、安全性、価値、文化的側面の相違を分析するための統一されたベンチマークである。
SAVACUは、112のドメイン(またはラベル)にまたがる382,424のミスアライメントデータセットである。
論文 参考訳(メタデータ) (2026-02-11T19:30:43Z) - AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。
AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文 参考訳(メタデータ) (2026-02-06T08:24:59Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Eliciting and Analyzing Emergent Misalignment in State-of-the-Art Large Language Models [0.0]
我々は、最先端の言語モデルが、注意深く構築された会話シナリオに対して脆弱であることを示します。
10の攻撃シナリオが成功し、現在のアライメント手法が物語の没入、感情的なプレッシャー、戦略的フレーミングをどのように扱うかに根本的な脆弱性が明らかになった。
汎用性を検証するため,自動評価フレームワークMISALIGNMENTBENCHに手動攻撃を行った。
論文 参考訳(メタデータ) (2025-08-06T08:25:40Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Exploring the Relationship between Samples and Masks for Robust Defect
Localization [1.90365714903665]
本稿では,モデルプロセスなしで欠陥パターンを直接検出する一段階フレームワークを提案する。
欠陥の位置を示す可能性のある明示的な情報は、直接マッピングを学ぶことを避けるために意図的に除外される。
その結果,提案手法はF1-ScoreのSOTA法よりも2.9%高い値を示した。
論文 参考訳(メタデータ) (2023-06-19T06:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。