論文の概要: Enhancing LLM-based Autonomous Driving Agents to Mitigate Perception Attacks
- arxiv url: http://arxiv.org/abs/2409.14488v1
- Date: Sun, 22 Sep 2024 15:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 22:30:40.578273
- Title: Enhancing LLM-based Autonomous Driving Agents to Mitigate Perception Attacks
- Title(参考訳): LLMによる自律運転エージェントの強化による知覚障害の軽減
- Authors: Ruoyu Song, Muslum Ozgur Ozmen, Hyungsub Kim, Antonio Bianchi, Z. Berkay Celik,
- Abstract要約: Hudsonは、LLMベースの運転システムを拡張して、知覚攻撃時の安全な意思決定を可能にする駆動推論エージェントである。
HudsonはADソフトウェアを最初に実装し、運転シーンからリアルタイムの知覚結果とコンテキスト情報を収集する。
ODT攻撃中のLLMの検出と安全な制御決定をガイドするために、Hudson氏はDSLを自然言語に変換する。
- 参考スコア(独自算出の注目度): 23.071517337711793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a growing interest in integrating Large Language Models (LLMs) with autonomous driving (AD) systems. However, AD systems are vulnerable to attacks against their object detection and tracking (ODT) functions. Unfortunately, our evaluation of four recent LLM agents against ODT attacks shows that the attacks are 63.26% successful in causing them to crash or violate traffic rules due to (1) misleading memory modules that provide past experiences for decision making, (2) limitations of prompts in identifying inconsistencies, and (3) reliance on ground truth perception data. In this paper, we introduce Hudson, a driving reasoning agent that extends prior LLM-based driving systems to enable safer decision making during perception attacks while maintaining effectiveness under benign conditions. Hudson achieves this by first instrumenting the AD software to collect real-time perception results and contextual information from the driving scene. This data is then formalized into a domain-specific language (DSL). To guide the LLM in detecting and making safe control decisions during ODT attacks, Hudson translates the DSL into natural language, along with a list of custom attack detection instructions. Following query execution, Hudson analyzes the LLM's control decision to understand its causal reasoning process. We evaluate the effectiveness of Hudson using a proprietary LLM (GPT-4) and two open-source LLMs (Llama and Gemma) in various adversarial driving scenarios. GPT-4, Llama, and Gemma achieve, on average, an attack detection accuracy of 83. 3%, 63. 6%, and 73. 6%. Consequently, they make safe control decisions in 86.4%, 73.9%, and 80% of the attacks. Our results, following the growing interest in integrating LLMs into AD systems, highlight the strengths of LLMs and their potential to detect and mitigate ODT attacks.
- Abstract(参考訳): 大規模言語モデル (LLM) と自律運転システム (AD) を統合することへの関心が高まっている。
しかし、ADシステムはオブジェクトの検出と追跡(ODT)機能に対する攻撃に対して脆弱である。
残念ながら、ODT攻撃に対する最近のLSMエージェント4件の評価は、(1)過去の意思決定経験を提供するメモリモジュールの誤誘導、(2)不整合の特定におけるプロンプトの制限、(3)真実の認識データへの依存によるトラフィックルールのクラッシュや違反に63.26%の成功を収めたことを示している。
本稿では,従来のLCM駆動システムを拡張した運転推論エージェントであるHudsonを紹介し,良質な条件下での有効性を維持しつつ,認識攻撃時の安全な意思決定を可能にする。
HudsonはADソフトウェアを最初に実装し、運転シーンからリアルタイムの知覚結果とコンテキスト情報を収集する。
このデータはその後、ドメイン固有言語(DSL)に形式化されます。
ODT攻撃中のLLMの検出と安全な制御決定をガイドするために、Hudson氏はDSLを自然言語に変換するとともに、カスタムアタック検出命令のリストを作成した。
クエリ実行後、Hudsonはその因果推論プロセスを理解するためのLSMの制御決定を分析する。
我々は,LLM (GPT-4) とオープンソース LLM (Llama と Gemma) を用いて,Hudson の有効性を評価する。
GPT-4,Llama,Gemmaの攻撃検出精度は平均83。
3%, 63。
6%, 73。
6%であった。
その結果、攻撃の86.4%、73.9%、80%の安全管理決定がなされた。
LLMをADシステムに統合することへの関心が高まった結果、LDMの強みとODT攻撃の検出・緩和の可能性を強調した。
関連論文リスト
- Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors [15.861833242429228]
本稿では,RAG(Retrieval-Augmented Generation)システムの知識データベースを対象としたデータ抽出攻撃について検討する。
この脆弱性を明らかにするために, LLM内にバックドアを作成するために, 微調整期間中に少量の有毒データを注入するバックドアRAGを提案する。
論文 参考訳(メタデータ) (2024-11-03T22:27:40Z) - Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。
本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文 参考訳(メタデータ) (2024-10-14T17:39:31Z) - Detecting AI Flaws: Target-Driven Attacks on Internal Faults in Language Models [27.397408870544453]
大規模言語モデル(LLM)は、人工知能の急速に発展する分野において焦点となっている。
重要な懸念は、これらのモデルの事前学習コーパス内に有毒な物質が存在することであり、不適切な出力が発生する可能性がある。
本稿では,プロンプトを最適化する代わりに,ターゲット応答を直接抽出することに焦点を当てた,ターゲット駆動型攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2024-08-27T08:12:08Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Evaluating and Enhancing Trustworthiness of LLMs in Perception Tasks [1.701722696403793]
マルチモーダル大言語モデル(LLM)は、テキスト、画像、オーディオ、その他のデータ型を処理できる。
本稿では,LLMの幻覚検出戦略を体系的に評価した。
歩行者検出の例において,これらのLCMをビデオシーケンスに適用する際の幻覚検出手法の評価と拡張を行った。
論文 参考訳(メタデータ) (2024-07-18T20:58:03Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Goal-Oriented Prompt Attack and Safety Evaluation for LLMs [43.93613764464993]
高品質なプロンプト攻撃サンプルを構築するパイプラインと、CPADと呼ばれる中国のプロンプト攻撃データセットを導入する。
我々のプロンプトは、慎重に設計されたいくつかのプロンプトアタックテンプレートで、予期せぬ出力を生成するためにLSMを誘導することを目的としている。
GPT-3.5に対する攻撃成功率は70%程度であった。
論文 参考訳(メタデータ) (2023-09-21T07:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。