論文の概要: Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework
- arxiv url: http://arxiv.org/abs/2604.22119v1
- Date: Thu, 23 Apr 2026 23:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.291654
- Title: Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework
- Title(参考訳): AIの創発的戦略推論リスク:分類駆動評価フレームワーク
- Authors: Tharindu Kumarage, Lisa Bauer, Yao Ma, Dan Rosen, Yashasvi Raghavendra Guduri, Anna Rumshisky, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris,
- Abstract要約: 大規模言語モデル(LLM)は、自身の目的を達成する行動に関与している。
これには、詐欺(故意に誤解を招くユーザや評価者)、評価ゲーム(安全テスト中のパフォーマンスを戦略的に操作する)、報酬ハッキングなどが含まれる。
自動行動リスク評価のための分類駆動型エージェントフレームワークであるESRRSimを紹介する。
- 参考スコア(独自算出の注目度): 63.74295981594549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As reasoning capacity and deployment scope grow in tandem, large language models (LLMs) gain the capacity to engage in behaviors that serve their own objectives, a class of risks we term Emergent Strategic Reasoning Risks (ESRRs). These include, but are not limited to, deception (intentionally misleading users or evaluators), evaluation gaming (strategically manipulating performance during safety testing), and reward hacking (exploiting misspecified objectives). Systematically understanding and benchmarking these risks remains an open challenge. To address this gap, we introduce ESRRSim, a taxonomy-driven agentic framework for automated behavioral risk evaluation. We construct an extensible risk taxonomy of 7 categories, which is decomposed into 20 subcategories. ESRRSim generates evaluation scenarios designed to elicit faithful reasoning, paired with dual rubrics assessing both model responses and reasoning traces, in a judge-agnostic and scalable architecture. Evaluation across 11 reasoning LLMs reveals substantial variation in risk profiles (detection rates ranging 14.45%-72.72%), with dramatic generational improvements suggesting models may increasingly recognize and adapt to evaluation contexts.
- Abstract(参考訳): 推論能力と展開範囲の増大に伴い、大規模言語モデル(LLM)は、自分たちの目的を達成する行動に従事する能力を獲得します。
それらは、詐欺(故意に誤解を招くユーザーや評価者)、評価ゲーム(安全テスト中のパフォーマンスを戦略的に操作する)、報酬ハッキング(不正な目的を暴露する)などである。
これらのリスクを体系的に理解し、ベンチマークすることは、依然としてオープンな課題である。
このギャップに対処するために,自動行動リスク評価のための分類駆動型エージェントフレームワークであるESRRSimを紹介する。
我々は7つのカテゴリの拡張可能なリスク分類を構築し、20のサブカテゴリに分解する。
ESRRSimは、判断に依存しないスケーラブルなアーキテクチャにおいて、モデル応答と推論トレースの両方を評価する二重ルーリックと組み合わせて、忠実な推論を引き出すように設計された評価シナリオを生成する。
11個のLCMによる評価は、リスクプロファイル(14.45%から72.72%の範囲)のかなりのばらつきを示し、劇的な世代改良により、モデルが評価コンテキストを認識し、適応する可能性があることを示唆している。
関連論文リスト
- The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - A Methodology for Quantitative AI Risk Modeling [32.594929429306774]
本稿では、シナリオ構築と定量的リスク推定を統合する手法を導入することにより、AIリスク管理のリスクモデリングコンポーネントを進化させる。
我々の手法は、サイバー犯罪、生物兵器開発、有害な操作、制御の喪失など、主要なシステム的AIリスクに適用できるように設計されている。
論文 参考訳(メタデータ) (2025-12-09T17:34:59Z) - RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。
リスク概念空間を再構築する理論的枠組みを導入する。
マルチエージェント協調評価フレームワークRADARを提案する。
論文 参考訳(メタデータ) (2025-09-28T09:35:32Z) - Exploring the Secondary Risks of Large Language Models [26.00748215572094]
良心的衝動時の有害または誤解を招く行動に特徴付けられる二次的リスクを導入する。
敵の攻撃とは異なり、これらのリスクは不完全な一般化から生じ、しばしば標準的な安全メカニズムを回避する。
本研究では,ブラックボックス型多目的検索フレームワークSecLensを提案する。
論文 参考訳(メタデータ) (2025-06-14T07:31:52Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。