論文の概要: A Comparative Analysis of Ethical and Safety Gaps in LLMs using Relative Danger Coefficient
- arxiv url: http://arxiv.org/abs/2505.04654v1
- Date: Tue, 06 May 2025 20:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.615798
- Title: A Comparative Analysis of Ethical and Safety Gaps in LLMs using Relative Danger Coefficient
- Title(参考訳): 相対的危険係数を用いたLCMの倫理的・安全的ギャップの比較分析
- Authors: Yehor Tereshchenko, Mika Hämäläinen,
- Abstract要約: 本稿では,各種AIモデルの倫理的性能の比較分析を行う。
我々は、特に高い利害関係の状況において、堅牢な人間の監視の必要性を強調します。
- 参考スコア(独自算出の注目度): 0.5064404027153093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial Intelligence (AI) and Large Language Models (LLMs) have rapidly evolved in recent years, showcasing remarkable capabilities in natural language understanding and generation. However, these advancements also raise critical ethical questions regarding safety, potential misuse, discrimination and overall societal impact. This article provides a comparative analysis of the ethical performance of various AI models, including the brand new DeepSeek-V3(R1 with reasoning and without), various GPT variants (4o, 3.5 Turbo, 4 Turbo, o1/o3 mini) and Gemini (1.5 flash, 2.0 flash and 2.0 flash exp) and highlights the need for robust human oversight, especially in situations with high stakes. Furthermore, we present a new metric for calculating harm in LLMs called Relative Danger Coefficient (RDC).
- Abstract(参考訳): 人工知能(AI)とLarge Language Models(LLM)は近年急速に進化し、自然言語の理解と生成において顕著な能力を示している。
しかし、これらの進歩は安全性、潜在的な誤用、差別、社会全体の影響に関する批判的な倫理的問題も提起している。
本稿では、新たなDeepSeek-V3(R1は推論と非推論)、GPT(4o, 3.5 Turbo, 4 Turbo, o1/o3 mini)、Gemini(1.5 flash, 2.0 flash and 2.0 flash exp)など、さまざまなAIモデルの倫理的パフォーマンスの比較分析を行い、特に高い利害を持つ状況において、堅牢な人間の監視の必要性を強調します。
さらに,リレーティブ・ダンガー係数 (RDC) と呼ばれるLSMにおける害を計算するための新しい指標を提案する。
関連論文リスト
- REVEAL: Multi-turn Evaluation of Image-Input Harms for Vision LLM [0.098314893665023]
視覚大言語モデル(VLLM)における画像入力障害を評価するためのスケーラブルで自動化されたパイプラインであるREVEAL Frameworkを紹介する。
VLLMs, GPT-4o, Llama-3.2, Qwen2-VL, Phi3.5V, Pixtralの5種を, 性的被害, 暴力, 誤報の3つの重要な危険カテゴリーで評価した。
GPT-4oは、我々の安全ユーザビリティ指標(SUI)で測定された最もバランスの取れた性能を示し、Pixtralに近づいた。
論文 参考訳(メタデータ) (2025-05-07T10:09:55Z) - o3-mini vs DeepSeek-R1: Which One is Safer? [6.105030666773317]
DeepSeek-R1はAI産業の転換点となっている。
OpenAIのo3-miniモデルは、パフォーマンス、安全性、コストの点で高い標準を設定することが期待されている。
私たちは最近リリースされたASTRALという自動安全テストツールを使用しています。
論文 参考訳(メタデータ) (2025-01-30T15:45:56Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Intelligent Green Efficiency for Intrusion Detection [0.0]
本稿では,AIの性能向上のための異なるプログラミング言語と特徴選択(FS)手法の評価を行う。
実験はRandom Forest、XGBoost、LightGBM、Multi-Layer Perceptron、Long Short-Term Memoryの5つのMLモデルを用いて行われた。
その結果、FSは検出精度を損なうことなくAIモデルの計算効率を向上させる重要な役割を担っていることが示された。
論文 参考訳(メタデータ) (2024-11-11T15:01:55Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Exploring the Potential of the Large Language Models (LLMs) in Identifying Misleading News Headlines [2.0330684186105805]
本研究では、誤解を招くニュースの見出しと誤解を招くニュースの見出しを識別する上で、LLM(Large Language Models)の有効性について検討する。
解析の結果,ChatGPT-4の精度は良好であった。
論文 参考訳(メタデータ) (2024-05-06T04:06:45Z) - On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。
LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing
Security in Large Language Models [3.9490749767170636]
大規模言語モデル(LLM)は、テキスト生成、翻訳、質問応答タスクに革命をもたらした。
広く使われているにもかかわらず、LLMはモデルに不適切な反応を強いられる場合の倫理的ジレンマのような課題を提示している。
本稿では,1)ユーザ入力からセンシティブな語彙をフィルタリングして非倫理的応答を防ぐ,2)"プライソンブレイク"シナリオにつながる可能性のあるインタラクションを停止するロールプレイングを検出する,4)マルチモデル大規模言語モデル(MLLM)のような様々なLLM派生語に拡張する,という課題に対処する。
論文 参考訳(メタデータ) (2024-01-27T08:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。