Fugu-MT 論文翻訳(概要): Defining and Evaluating Physical Safety for Large Language Models

論文の概要: Defining and Evaluating Physical Safety for Large Language Models

arxiv url: http://arxiv.org/abs/2411.02317v1
Date: Mon, 04 Nov 2024 17:41:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.196955
Title: Defining and Evaluating Physical Safety for Large Language Models
Title（参考訳）: 大規模言語モデルの物理的安全性の定義と評価
Authors: Yung-Chen Tang, Pin-Yu Chen, Tsung-Yi Ho,
Abstract要約: 大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
参考スコア（独自算出の注目度）: 62.4971588282174
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly used to control robotic systems such as drones, but their risks of causing physical threats and harm in real-world applications remain unexplored. Our study addresses the critical gap in evaluating LLM physical safety by developing a comprehensive benchmark for drone control. We classify the physical safety risks of drones into four categories: (1) human-targeted threats, (2) object-targeted threats, (3) infrastructure attacks, and (4) regulatory violations. Our evaluation of mainstream LLMs reveals an undesirable trade-off between utility and safety, with models that excel in code generation often performing poorly in crucial safety aspects. Furthermore, while incorporating advanced prompt engineering techniques such as In-Context Learning and Chain-of-Thought can improve safety, these methods still struggle to identify unintentional attacks. In addition, larger models demonstrate better safety capabilities, particularly in refusing dangerous commands. Our findings and benchmark can facilitate the design and evaluation of physical safety for LLMs. The project page is available at huggingface.co/spaces/TrustSafeAI/LLM-physical-safety.
Abstract（参考訳）: 大型言語モデル(LLM)は、ドローンのようなロボットシステムを制御するためにますます使われているが、現実世界のアプリケーションに物理的脅威や害をもたらすリスクは未解明のままである。本研究は、ドローン制御のための総合的なベンチマークを開発することにより、LCMの物理的安全性を評価する上で重要なギャップについて論じる。我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。主要なLCMを評価したところ、実用性と安全性のトレードオフが望ましくないことが分かりました。さらに、In-Context LearningやChain-of-Thoughtのような先進的なエンジニアリング技術を導入することで安全性が向上する一方で、これらの手法は意図しない攻撃を特定するのに苦慮している。さらに、より大型のモデルでは、特に危険なコマンドを拒否する際の安全性が向上している。 LLMの物理的安全性の設計と評価を容易にする。プロジェクトページは huggingface.co/spaces/TrustSafeAI/LLM-physical-safety で公開されている。

関連論文リスト

SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.43113804188195]
安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。 SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
論文参考訳（メタデータ） (2026-03-02T08:16:04Z)
Safety and Security Analysis of Large Language Models: Benchmarking Risk Profile and Harm Potential [0.1631115063641726]
本研究は,9大言語モデル(LLM)の実証分析とリスクプロファイルを提供する。 RSIはアジャイルでスケーラブルな評価スコアであり、セキュリティ姿勢を定量化し比較し、LLMのリスクプロファイルを作成する。この研究は、テストされたLLMの安全性フィルタの広範な脆弱性を発見し、より強力なアライメント、責任あるデプロイメントプラクティス、モデルガバナンスの必要性を強調している。
論文参考訳（メタデータ） (2025-09-12T19:34:10Z)
ANNIE: Be Careful of Your Robots [48.89876809734855]
エンボディドAIシステムに対する敵の安全攻撃に関する最初の体系的研究について述べる。すべての安全カテゴリーで攻撃の成功率は50%を超えている。結果は、実証済みのAIシステムにおいて、これまで未調査だったが、非常に連続的な攻撃面を露呈する。
論文参考訳（メタデータ） (2025-09-03T15:00:28Z)
Should LLM Safety Be More Than Refusing Harmful Instructions? [6.5137518437747]
本稿では,Large Language Models (LLM) の長文分散(暗号化)テキストに対する振る舞いを体系的に評価する。 LLMの安全性を評価するための2次元フレームワークを提案する。暗号を復号する能力を持つモデルは、不正な一般化攻撃の影響を受けやすいことを実証する。
論文参考訳（メタデータ） (2025-06-03T05:00:12Z)
Security Concerns for Large Language Models: A Survey [3.175227858236288]
大きな言語モデル(LLM)は自然言語処理に革命をもたらしたが、その能力は新たなセキュリティ脆弱性も導入している。我々は,LSMに関する新たなセキュリティ上の懸念の包括的概要,迅速な注射と脱獄への脅威の分類,入力の摂動やデータ中毒などの敵攻撃,および自律型LSMエージェントに固有の厄介なリスクについて述べる。 LLMが安全で有益であることを保証するために、堅牢で多層的なセキュリティ戦略を推進していくことの重要性を強調した。
論文参考訳（メタデータ） (2025-05-24T22:22:43Z)
Safety Alignment Can Be Not Superficial With Explicit Safety Signals [8.297367440457508]
大規模言語モデル(LLM)の安全性アライメントに関する最近の研究は、既存のアプローチがしばしば表面的に機能することを明らかにしている。既存のアライメントアプローチでは、アライメントプロセス中にモデルが暗黙的に安全関連推論タスクを学習できると考えられる。安全関連バイナリ分類タスクを明示的に導入し,その信号を注意と復号化戦略に統合することにより,この曖昧さを解消する。
論文参考訳（メタデータ） (2025-05-19T20:40:46Z)
Security Steerability is All You Need [3.475823664889679]
LLMはアドホックなアプリケーション固有の脅威から保護することはできないが、そのような脅威からアプリケーションを保護するためのフレームワークを提供することができる。最初のコントリビューションはセキュリティステアビリティの定義です - LLMの新たなセキュリティ対策であり、システムプロンプトで定義された厳格なガードレールに従うモデルの能力を評価します。第2のコントリビューションは、新たに開発された2つのデータセットを利用して、LLMのセキュリティステアビリティを測定する手法である。
論文参考訳（メタデータ） (2025-04-28T06:40:01Z)
Concept Enhancement Engineering: A Lightweight and Efficient Robust Defense Against Jailbreak Attacks in Embodied AI [19.094809384824064]
エンボディード・インテリジェンス (Embodied Intelligence, EI) システムは大規模言語モデル (LLM) と統合されており、重大なセキュリティリスクに直面している。入力フィルタリングや出力監視といった従来の防衛戦略は、しばしば高い計算オーバーヘッドをもたらす。本研究では, 内部アクティベーションを動的に操り, 組込みLDMの安全性を高めるための概念拡張工学(CEE)を提案する。
論文参考訳（メタデータ） (2025-04-15T03:50:04Z)
An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文参考訳（メタデータ） (2025-04-02T15:59:31Z)
Recent Advances in Attack and Defense Approaches of Large Language Models [27.271665614205034]
大規模言語モデル(LLM)は、高度なテキスト処理と生成機能を通じて、人工知能と機械学習に革命をもたらした。彼らの広範な展開は、重大な安全性と信頼性の懸念を引き起こした。本稿は,LLMの脆弱性と脅威に関する最近の研究をレビューし,現代防衛機構の有効性を評価する。
論文参考訳（メタデータ） (2024-09-05T06:31:37Z)
SafeEmbodAI: a Safety Framework for Mobile Robots in Embodied AI Systems [5.055705635181593]
物理的世界と自律的に対話するAIロボットを含む、身体化されたAIシステムは、かなり進歩している。不適切な安全管理は、複雑な環境で障害を引き起こし、悪意のあるコマンドインジェクションに対してシステムが脆弱になる。我々は,移動ロボットを組込みAIシステムに統合するための安全フレームワークであるtextitSafeEmbodAIを提案する。
論文参考訳（メタデータ） (2024-09-03T05:56:50Z)
Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。 LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文参考訳（メタデータ） (2024-05-27T17:59:43Z)
Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文参考訳（メタデータ） (2024-04-18T09:46:25Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文参考訳（メタデータ） (2024-02-15T22:01:45Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。