論文の概要: On Surjectivity of Neural Networks: Can you elicit any behavior from your model?
- arxiv url: http://arxiv.org/abs/2508.19445v1
- Date: Tue, 26 Aug 2025 21:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.431638
- Title: On Surjectivity of Neural Networks: Can you elicit any behavior from your model?
- Title(参考訳): ニューラルネットワークのサージェクティビティについて:モデルから何らかの振る舞いを導き出せるか?
- Authors: Haozhe Jiang, Nika Haghtalab,
- Abstract要約: 生成モデルでは、サージェクティビティは、有害または望ましくないコンテンツを含む任意の出力を、原則としてネットワークによって生成できることを意味する。
我々は、プレ層正規化と線形アテンションモジュールを持つネットワークなど、現代のニューラルアーキテクチャの多くの基本的な構成要素が、ほぼ常に従属的であることを証明した。
- 参考スコア(独自算出の注目度): 17.542555695255505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a trained neural network, can any specified output be generated by some input? Equivalently, does the network correspond to a function that is surjective? In generative models, surjectivity implies that any output, including harmful or undesirable content, can in principle be generated by the networks, raising concerns about model safety and jailbreak vulnerabilities. In this paper, we prove that many fundamental building blocks of modern neural architectures, such as networks with pre-layer normalization and linear-attention modules, are almost always surjective. As corollaries, widely used generative frameworks, including GPT-style transformers and diffusion models with deterministic ODE solvers, admit inverse mappings for arbitrary outputs. By studying surjectivity of these modern and commonly used neural architectures, we contribute a formalism that sheds light on their unavoidable vulnerability to a broad class of adversarial attacks.
- Abstract(参考訳): トレーニングされたニューラルネットワークがあれば、特定の出力を何らかの入力で生成できますか?
同様に、ネットワークは全射関数に対応しているのか?
生成モデルでは、サージェクティビティは、有害または望ましくないコンテンツを含む任意のアウトプットを原則としてネットワークによって生成し、モデルの安全性やジェイルブレイクの脆弱性に対する懸念を提起することを意味する。
本稿では,前層正規化と線形アテンションモジュールを持つネットワークなど,現代のニューラルネットワークの基本構築ブロックがほとんど常に従属的であることを実証する。
コーナリーとして、GPT型変換器や決定論的ODEソルバを持つ拡散モデルを含む広く使われている生成フレームワークは、任意の出力に対する逆写像を認めている。
これらの現代的で一般的に使われているニューラルアーキテクチャのサージェクティビティを研究することで、我々は、避けられない脆弱性を幅広い種類の敵攻撃に光を当てるフォーマリズムに貢献する。
関連論文リスト
- Using Degeneracy in the Loss Landscape for Mechanistic Interpretability [0.0]
機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークによって実装されたアルゴリズムを、その重みとアクティベーションを研究することによってリバースエンジニアリングすることを目的としている。
逆エンジニアリングニューラルネットワークの障害は、ネットワーク内の多くのパラメータが、ネットワークによって実装されている計算に関与していないことである。
論文 参考訳(メタデータ) (2024-05-17T17:26:33Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Modeling Structure with Undirected Neural Networks [20.506232306308977]
任意の順序で実行できる計算を指定するためのフレキシブルなフレームワークである、非指向型ニューラルネットワークを提案する。
さまざまなタスクにおいて、非構造的かつ構造化された非指向型ニューラルアーキテクチャの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-08T10:06:51Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - Adversarial Perturbations Are Not So Weird: Entanglement of Robust and
Non-Robust Features in Neural Network Classifiers [4.511923587827301]
標準的な方法でトレーニングされたニューラルネットワークでは、ロバストでない機能は、小さな"非セマンティック"パターンに反応する。
逆の例は、これらの小さな絡み合ったパターンに対する、最小限の摂動によって形成できます。
論文 参考訳(メタデータ) (2021-02-09T20:21:31Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Exploring the role of Input and Output Layers of a Deep Neural Network
in Adversarial Defense [0.0]
通常の人間を騙すのではなく、モデルを完全に誤解させる可能性のある、ある種の入力が存在することが示されている。
逆入力は、そのようなモデルが現実世界のアプリケーションで使用される場合、高いセキュリティ上の脅威となる。
本研究は, 完全に接続された3種類の高密度ネットワークの非段階的攻撃に対する耐性を解析した。
論文 参考訳(メタデータ) (2020-06-02T06:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。