論文の概要: Analysis of Threat-Based Manipulation in Large Language Models: A Dual Perspective on Vulnerabilities and Performance Enhancement Opportunities
- arxiv url: http://arxiv.org/abs/2507.21133v1
- Date: Tue, 22 Jul 2025 14:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:54.970048
- Title: Analysis of Threat-Based Manipulation in Large Language Models: A Dual Perspective on Vulnerabilities and Performance Enhancement Opportunities
- Title(参考訳): 大規模言語モデルにおける脅威に基づく操作の分析:脆弱性と性能向上の両面的視点
- Authors: Atil Samancioglu,
- Abstract要約: 大規模言語モデル(LLM)は、脅威ベースの操作に対する複雑な応答を示す。
本研究は,3つのLLMによる3,390個の実験応答の包括的解析を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate complex responses to threat-based manipulations, revealing both vulnerabilities and unexpected performance enhancement opportunities. This study presents a comprehensive analysis of 3,390 experimental responses from three major LLMs (Claude, GPT-4, Gemini) across 10 task domains under 6 threat conditions. We introduce a novel threat taxonomy and multi-metric evaluation framework to quantify both negative manipulation effects and positive performance improvements. Results reveal systematic vulnerabilities, with policy evaluation showing the highest metric significance rates under role-based threats, alongside substantial performance enhancements in numerous cases with effect sizes up to +1336%. Statistical analysis indicates systematic certainty manipulation (pFDR < 0.0001) and significant improvements in analytical depth and response quality. These findings have dual implications for AI safety and practical prompt engineering in high-stakes applications.
- Abstract(参考訳): 大きな言語モデル(LLM)は、脅威ベースの操作に対する複雑な応答を示し、脆弱性と予期せぬパフォーマンス向上の機会を明らかにします。
本研究では,6つの脅威条件下で10個のタスク領域にわたる3つのLLM(Claude, GPT-4, Gemini)から3,390個の実験応答を包括的に解析した。
我々は、ネガティブな操作効果とポジティブなパフォーマンス改善の両方を定量化するために、新しい脅威分類とマルチメトリック評価フレームワークを導入する。
その結果、組織的な脆弱性が明らかとなり、政策評価では、ロールベースの脅威の下で最も高い測定値の重要度を示すとともに、最大+1336%のエフェクトサイズを持つ多くのケースで大幅なパフォーマンス向上が見られた。
統計的分析は、系統的確実性操作(pFDR < 0.0001)と分析深度と応答品質の大幅な改善を示している。
これらの発見は、AIの安全性と実践的なプロンプトエンジニアリングに2つの意味を持つ。
関連論文リスト
- Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。
この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文 参考訳(メタデータ) (2025-07-25T10:34:51Z) - Dissecting Long Reasoning Models: An Empirical Study [94.31064312707211]
強化学習(RL)における正・負のサンプルの役割を系統的に分析する。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - Sycophancy in Large Language Models: Causes and Mitigations [0.0]
大規模言語モデル (LLM) は、幅広い自然言語処理タスクにおいて顕著な機能を示した。
シコファンの行動を示す傾向は、その信頼性と倫理的展開に重大なリスクをもたらす。
本稿では, LLMにおけるサイコフィナンシーの技術的調査を行い, その原因, 影響, 潜在的な緩和戦略について分析する。
論文 参考訳(メタデータ) (2024-11-22T16:56:49Z) - Systematically Analyzing Prompt Injection Vulnerabilities in Diverse LLM Architectures [5.062846614331549]
本研究では,36大言語モデル(LLM)の各種インジェクション攻撃に対する脆弱性を系統的に解析する。
144回のインジェクション試験で, モデルパラメータと脆弱性との間に強い相関が認められた。
論文 参考訳(メタデータ) (2024-10-28T18:55:21Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - RobustMQ: Benchmarking Robustness of Quantized Models [54.15661421492865]
量子化は、限られたリソースを持つデバイスにディープニューラルネットワーク(DNN)をデプロイする上で不可欠なテクニックである。
我々は、ImageNet上の様々なノイズ(障害攻撃、自然破壊、系統的なノイズ)に対する量子化モデルのロバスト性について、徹底的に評価した。
我々の研究は、モデルとその実世界のシナリオにおける展開の堅牢な定量化を推し進めることに貢献している。
論文 参考訳(メタデータ) (2023-08-04T14:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。