論文の概要: Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities
- arxiv url: http://arxiv.org/abs/2505.13195v1
- Date: Mon, 19 May 2025 14:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.666122
- Title: Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities
- Title(参考訳): LLMにおける敵対的テスト:意思決定脆弱性の考察
- Authors: Lili Zhang, Haomiaomiao Wang, Long Cheng, Libao Deng, Tomas Ward,
- Abstract要約: 本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。
我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。
我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
- 参考スコア(独自算出の注目度): 5.0778942095543576
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As Large Language Models (LLMs) become increasingly integrated into real-world decision-making systems, understanding their behavioural vulnerabilities remains a critical challenge for AI safety and alignment. While existing evaluation metrics focus primarily on reasoning accuracy or factual correctness, they often overlook whether LLMs are robust to adversarial manipulation or capable of using adaptive strategy in dynamic environments. This paper introduces an adversarial evaluation framework designed to systematically stress-test the decision-making processes of LLMs under interactive and adversarial conditions. Drawing on methodologies from cognitive psychology and game theory, our framework probes how models respond in two canonical tasks: the two-armed bandit task and the Multi-Round Trust Task. These tasks capture key aspects of exploration-exploitation trade-offs, social cooperation, and strategic flexibility. We apply this framework to several state-of-the-art LLMs, including GPT-3.5, GPT-4, Gemini-1.5, and DeepSeek-V3, revealing model-specific susceptibilities to manipulation and rigidity in strategy adaptation. Our findings highlight distinct behavioral patterns across models and emphasize the importance of adaptability and fairness recognition for trustworthy AI deployment. Rather than offering a performance benchmark, this work proposes a methodology for diagnosing decision-making weaknesses in LLM-based agents, providing actionable insights for alignment and safety research.
- Abstract(参考訳): 大規模言語モデル(LLM)が現実の意思決定システムに統合されるにつれて、その行動上の脆弱性を理解することは、AIの安全性と整合性にとって重要な課題である。
既存の評価指標は主に推論の正確性や事実の正当性に焦点が当てられているが、LLMが敵の操作に頑健なのか、動的環境で適応戦略を使用することができるのかを見落としていることが多い。
本稿では, LLMの意思決定過程を, 対話的, 敵対的条件下で体系的にストレステストする逆評価フレームワークを提案する。
本稿では,認知心理学とゲーム理論の方法論を基礎として,モデルが2つの標準的タスク – 両腕バンディットタスクとマルチルートトラストタスク – でどのように反応するかを考察する。
これらのタスクは、探索と探索のトレードオフ、社会的協力、戦略的柔軟性の重要な側面を捉えている。
我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3を含む最先端のLCMにこの枠組みを適用し、戦略適応における操作や剛性に対するモデル固有の感受性を明らかにする。
我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
この研究は、性能ベンチマークを提供するのではなく、LCMベースのエージェントで意思決定の弱点を診断するための方法論を提案し、アライメントと安全性研究のための実用的な洞察を提供する。
関連論文リスト
- A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Do as We Do, Not as You Think: the Conformity of Large Language Models [46.23852835759767]
本稿では,大規模言語モデル(LLM)による協調型AIシステムにおける適合性について述べる。
適合性の存在、適合性に影響を与える要因、潜在的な緩和戦略の3つの側面に焦点を当てる。
本分析では, 相互作用時間や過半数サイズなど, 適合性に影響を与える要因を解明し, 対象エージェントが適合行動をどのように合理化するかを検討する。
論文 参考訳(メタデータ) (2025-01-23T04:50:03Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。