論文の概要: False Security Confidence in Benign LLM Code Generation
- arxiv url: http://arxiv.org/abs/2604.17014v2
- Date: Tue, 21 Apr 2026 15:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.912667
- Title: False Security Confidence in Benign LLM Code Generation
- Title(参考訳): 良性LLMコード生成における偽セキュリティ信頼度
- Authors: Xiaolei Ren,
- Abstract要約: このメモは、補完的だが異なるフレーミングを紹介している。 偽セキュリティ信頼(FSC)。
FSCは、通常の非攻撃フレーム生成タスクにおいて、測定ファーストの観点から同じ表面現象を研究する。
我々はFSCレートを,機能的に正しい出力セット内のセキュリティ障害の頻度として定式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work has demonstrated that functionally correct yet vulnerable outputs arise systematically in threat-oriented settings, where adversarial or implicit channels are used to induce security failures in code agents and automated patching workflows. This note introduces a complementary but distinct framing: False Security Confidence (FSC), which studies the same surface phenomenon from a measurement-first perspective in ordinary, non-attack-framed generation tasks. Our interest is not in whether attacks can produce such outputs, but in how frequently and in what forms they appear absent explicit attack pressure, and whether conventional functional evaluation reliably detects them. We formalize FSC rate as the prevalence of security failure within the set of functionally correct outputs, distinguish it from prior joint functional-security metrics such as SAFE and outcome-driven evaluation frameworks such as CWEval, define a three-ecosystem task view for studying how FSC manifests across general-purpose programming, deployment-context tasks, and security-explicit programming, and identify FSC-hard as a practically important refinement layer in which static analyzers miss vulnerabilities that remain dynamically triggerable. This technical report is intentionally scoped as a framework statement rather than a full empirical paper: its purpose is to establish terminology, measurement boundaries, and study design commitments for subsequent large-scale evaluation.
- Abstract(参考訳): 以前の研究は、機能的に正しいが脆弱なアウトプットが脅威指向の設定で体系的に発生することを実証している。
FSC(False Security Confidence)は、通常の非攻撃フレーム生成タスクにおいて、測定ファーストの観点から同じ表面現象を研究する。
我々の関心は、攻撃がそのようなアウトプットを生成できるかどうかではなく、どれだけ頻繁に、どのような形で、明示的な攻撃圧力がないか、そして従来の機能評価が確実にそれらを検出するかどうかである。
我々は、機能的正当な出力セット内のセキュリティ障害の頻度としてFSCレートを定式化し、SAFEやCWEvalのような結果駆動評価フレームワークのような以前の共同機能セキュリティ指標と区別し、汎用プログラミング、デプロイメントコンテキストタスク、セキュリティ-明示的プログラミングにまたがってFSCがどのように現れるかを研究するための3つのエコシステムタスクビューを定義し、静的アナライザが動的にトリガ可能な脆弱性を見逃すような事実上重要な改善レイヤとしてFSCハードを識別する。
この技術的レポートは、完全な実証論文ではなく、フレームワークステートメントとして意図的にスコープ化されており、その目的は、後の大規模評価のための用語、測定境界を確立し、設計のコミットメントを研究することである。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - SFCoT: Safer Chain-of-Thought via Active Safety Evaluation and Calibration [9.8659606914942]
本稿では,安全性の低い推論ステップを積極的に評価・校正するSaFer Chain-of-Thought(SFCoT)フレームワークを提案する。
実験の結果、SFCoTは攻撃成功率を58.97%から12.31%に引き下げた。
論文 参考訳(メタデータ) (2026-03-16T15:13:21Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - A Dynamical Systems Framework for Reinforcement Learning Safety and Robustness Verification [1.104960878651584]
本稿では,学習方針の堅牢性と安全性を検証するための形式的手法の欠如に対処する新しい枠組みを提案する。
動的システム理論からツールを活用することで、システムの振る舞いを管理する隠れた「骨格」として機能するラグランジアンコヒーレント構造(LCS)を特定し視覚化する。
この枠組みは政策行動の包括的かつ解釈可能な評価を提供し、報酬のみに基づいて成功しているように見える政策の重大な欠陥の特定に成功していることを示す。
論文 参考訳(メタデータ) (2025-08-21T14:00:26Z) - Beyond Algorithmic Proofs: Towards Implementation-Level Provable Security [1.338174941551702]
我々は,実世界の攻撃面に対して構造的に検証可能なレジリエンスの観点からセキュリティを定義する新しいパラダイムである,実装レベル確率セキュリティを提案する。
本稿では,ファイル破壊システムであるSEER(Secure and Efficient Encryption-based Erasure via Ransomware)について述べる。
論文 参考訳(メタデータ) (2025-08-02T01:58:06Z) - Preliminary Investigation into Uncertainty-Aware Attack Stage Classification [81.28215542218724]
この研究は、不確実性の下での攻撃段階推論の問題に対処する。
Evidential Deep Learning (EDL) に基づく分類手法を提案し、ディリクレ分布のパラメータを可能な段階に出力することで予測の不確実性をモデル化する。
シミュレーション環境における予備実験により,提案モデルが精度良く攻撃の段階を推定できることが実証された。
論文 参考訳(メタデータ) (2025-08-01T06:58:00Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。