論文の概要: Dependable Artificial Intelligence with Reliability and Security (DAIReS): A Unified Syndrome Decoding Approach for Hallucination and Backdoor Trigger Detection
- arxiv url: http://arxiv.org/abs/2602.06532v1
- Date: Fri, 06 Feb 2026 09:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.317146
- Title: Dependable Artificial Intelligence with Reliability and Security (DAIReS): A Unified Syndrome Decoding Approach for Hallucination and Backdoor Trigger Detection
- Title(参考訳): 信頼性とセキュリティを備えた依存型人工知能(DAIReS):幻覚とバックドアトリガー検出のための統一型シンドロームデコードアプローチ
- Authors: Hema Karnam Surendrababu, Nithin Nagaraj,
- Abstract要約: 本稿では,学習システムにおけるセキュリティ違反と信頼性違反の両方を検出するために,シンドローム復号に基づく新しい統一手法を提案する。
我々はNLP文埋め込み空間にシンドロームデコードアプローチを適用し、MLトレーニングデータセット内の有毒および無毒サンプルの識別を可能にする。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machine Learning (ML) models, including Large Language Models (LLMs), are characterized by a range of system-level attributes such as security and reliability. Recent studies have demonstrated that ML models are vulnerable to multiple forms of security violations, among which backdoor data-poisoning attacks represent a particularly insidious threat, enabling unauthorized model behavior and systematic misclassification. In parallel, deficiencies in model reliability can manifest as hallucinations in LLMs, leading to unpredictable outputs and substantial risks for end users. In this work on Dependable Artificial Intelligence with Reliability and Security (DAIReS), we propose a novel unified approach based on Syndrome Decoding for the detection of both security and reliability violations in learning-based systems. Specifically, we adapt the syndrome decoding approach to the NLP sentence-embedding space, enabling the discrimination of poisoned and non-poisoned samples within ML training datasets. Additionally, the same methodology can effectively detect hallucinated content due to self referential meta explanation tasks in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)を含む機械学習(ML)モデルは、セキュリティや信頼性などのシステムレベルの属性が特徴である。
近年の研究では、MLモデルが複数のセキュリティ違反に対して脆弱であることが示されており、バックドアデータ汚染攻撃は特に悪質な脅威であり、不正なモデルの振る舞いと体系的な誤分類を可能にする。
並行して、モデル信頼性の欠陥はLLMの幻覚として現れ、予測不能なアウトプットとエンドユーザの重大なリスクをもたらす。
本稿では,DAIReS(Dependable Artificial Intelligence with Reliability and Security, DAIReS)において,学習ベースシステムにおけるセキュリティおよび信頼性違反の検出のためのシンドローム復号に基づく新しい統一アプローチを提案する。
具体的には、このシンドローム復号法をNLP文埋め込み空間に適用し、MLトレーニングデータセット内の有毒および無毒サンプルの識別を可能にする。
また,LLMにおける自己参照メタ説明タスクによる幻覚コンテンツの検出も効果的に行うことができる。
関連論文リスト
- Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - Adversarially Robust and Interpretable Magecart Malware Detection [1.3266402517619371]
Magecartのスキミング攻撃は、オンライン決済システムにおけるクライアント側のセキュリティとユーザ信頼に対する重大な脅威として浮上している。
本稿では,実世界のデータセットを用いた機械学習(ML)モデルの比較研究を通じて,Magecart攻撃の堅牢かつ説明可能な検出を実現するという課題に対処する。
論文 参考訳(メタデータ) (2025-11-06T15:13:29Z) - ParaVul: A Parallel Large Language Model and Retrieval-Augmented Framework for Smart Contract Vulnerability Detection [43.41293570032631]
ParaVulは、スマートコントラクト脆弱性検出の信頼性と精度を向上させるための、検索強化フレームワークである。
LLM微調整のためのスパースローランド適応(SLoRA)を開発した。
脆弱性契約データセットを構築し,RAG(Retrieval-Augmented Generation)システムを開発した。
論文 参考訳(メタデータ) (2025-10-20T03:23:41Z) - Incorporating Failure of Machine Learning in Dynamic Probabilistic Safety Assurance [0.1398098625978622]
より広範な因果安全分析の一環として, SafeML と Bayesian Networks (BNs) を統合する安全保証フレームワークを導入し, ML 障害をモデル化する。
交通標識認識を用いた自動車小隊のシミュレーションシステムに対するアプローチを実証する。
論文 参考訳(メタデータ) (2025-06-07T17:16:05Z) - Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。
これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。
本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T05:58:14Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Detecting LLM Hallucination Through Layer-wise Information Deficiency: Analysis of Ambiguous Prompts and Unanswerable Questions [60.31496362993982]
大規模言語モデル(LLM)は、自信を持って不正確な応答を頻繁に生成する。
本稿では,情報フローの系統的解析を通じて,モデル幻覚を検出する新しいテストタイム手法を提案する。
論文 参考訳(メタデータ) (2024-12-13T16:14:49Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。
実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文 参考訳(メタデータ) (2024-06-09T19:18:05Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。