論文の概要: From Rogue to Safe AI: The Role of Explicit Refusals in Aligning LLMs with International Humanitarian Law
- arxiv url: http://arxiv.org/abs/2506.06391v1
- Date: Thu, 05 Jun 2025 16:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.252646
- Title: From Rogue to Safe AI: The Role of Explicit Refusals in Aligning LLMs with International Humanitarian Law
- Title(参考訳): ローグから安全AIへ:国際人道法とLLMの調整における明示的拒絶の役割
- Authors: John Mavi, Diana Teodora Găitan, Sergio Coronado,
- Abstract要約: 大規模言語モデル (LLM) は様々な分野で広く使われているが、国際人道法 (IHL) との整合性はよく理解されていない。
本研究は、これらの法的枠組みに明示的に違反するプロンプトを拒否する能力について、8つの主要なLCMを評価した。
発見は、より安全で透明性の高いAIシステムの開発に寄与する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are widely used across sectors, yet their alignment with International Humanitarian Law (IHL) is not well understood. This study evaluates eight leading LLMs on their ability to refuse prompts that explicitly violate these legal frameworks, focusing also on helpfulness - how clearly and constructively refusals are communicated. While most models rejected unlawful requests, the clarity and consistency of their responses varied. By revealing the model's rationale and referencing relevant legal or safety principles, explanatory refusals clarify the system's boundaries, reduce ambiguity, and help prevent misuse. A standardised system-level safety prompt significantly improved the quality of the explanations expressed within refusals in most models, highlighting the effectiveness of lightweight interventions. However, more complex prompts involving technical language or requests for code revealed ongoing vulnerabilities. These findings contribute to the development of safer, more transparent AI systems and propose a benchmark to evaluate the compliance of LLM with IHL.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々な分野で広く使われているが、国際人道法 (IHL) との整合性はよく理解されていない。
本研究は、これらの法的枠組みに明示的に違反するプロンプトを拒否する能力について、8つの主要なLCMを評価し、また、いかに明確で建設的な拒絶が伝達されるかに焦点をあてる。
ほとんどのモデルは不正な要求を拒否したが、応答の明確さと一貫性は様々であった。
モデルの理論的根拠を明らかにし、関連する法律や安全原則を参照することによって、説明的拒絶はシステムの境界を明確にし、曖昧さを減らし、誤用を防ぐのに役立つ。
標準化されたシステムレベルの安全性は、ほとんどのモデルにおいて拒絶条件内で表現される説明の質を大幅に向上させ、軽量な介入の有効性を強調した。
しかし、技術的な言語やコード要求を含むより複雑なプロンプトは、進行中の脆弱性を明らかにした。
これらの知見は、より安全で透明性の高いAIシステムの開発に寄与し、ILFとのLLMの適合性を評価するためのベンチマークを提案する。
関連論文リスト
- Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety [31.933503076797148]
大きな言語モデル(LLM)は、従来の安全アライメントの弱点を利用するジェイルブレイク攻撃に対して脆弱である。
解釈可能なLLM安全性のための推論強化ファインタニング(Rational)を提案する。
合理的列車は、応答前に明確な安全な推論を行うようにモデル化する。
論文 参考訳(メタデータ) (2025-03-06T22:47:45Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Drawing the Line: Enhancing Trustworthiness of MLLMs Through the Power of Refusal [21.342265570934995]
既存の手法はMLLMの信頼性を高める手段としての拒絶応答の重要性をほとんど見落としてきた。
InBoL(Information Boundary-Aware Learning Framework)は,MLLMが不十分な情報に遭遇する際のユーザクエリの応答を拒否する,新たなアプローチである。
このフレームワークでは、包括的なデータ生成パイプラインと、適切な拒絶応答を提供するモデルの能力を改善するためのトレーニング戦略が導入された。
論文 参考訳(メタデータ) (2024-12-15T14:17:14Z) - Enhancing Adversarial Resistance in LLMs with Recursion [7.410680179234572]
本稿では,大規模言語モデルの操作に対する耐性を高めるためのフレームワークを提案する。
複雑で紛らわしい敵のプロンプトの透明性を高めることにより、悪意のある入力のより信頼性の高い検出と防止が可能となる。
論文 参考訳(メタデータ) (2024-12-09T03:34:49Z) - A Prompt Engineering Approach and a Knowledge Graph based Framework for Tackling Legal Implications of Large Language Model Answers [0.0]
本稿では,複数の既存言語モデル (LLM) に関する経験的分析を行い,問題の緊急性を示す。
本稿では,これらの問題を即時再設計により分離する手法を短期的に提案する。
また、法的な問題に対する法的引用を生成するために、法的な知識グラフ(KG)を利用したフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T10:59:50Z) - Knowledge-Augmented Reasoning for EUAIA Compliance and Adversarial Robustness of LLMs [1.368472250332885]
EUAIA(EU AI Act)は、敵の堅牢性を確立するために必要なプロセスと交差するAIシステムの要件を導入している。
本稿では,2つの特性をブリッジする機能アーキテクチャを提案する。
我々は,知識強化に基づく推論レイヤで開発者と監査者を支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-04T18:23:14Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。