論文の概要: Questionnaire Responses Do not Capture the Safety of AI Agents
- arxiv url: http://arxiv.org/abs/2603.14417v1
- Date: Sun, 15 Mar 2026 15:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.800107
- Title: Questionnaire Responses Do not Capture the Safety of AI Agents
- Title(参考訳): AIエージェントの安全性を捉えない質問応答
- Authors: Max Hellrigel-Holderbaum, Edward James Young,
- Abstract要約: 急速に成長するAI研究の分野は、このようなアセスメントの開発に費やされている。
標準手法は、仮説的なシナリオでそれらの値や振る舞いを記述するために、アンケート形式で大きな言語モデル(LLM)を誘導する。
構造的に同一の問題は、現在のAIアライメントアプローチに当てはまる、と私たちは主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems advance in capabilities, measuring their safety and alignment to human values is becoming paramount. A fast-growing field of AI research is devoted to developing such assessments. However, most current advances therein may be ill-suited for assessing AI systems across real-world deployments. Standard methods prompt large language models (LLMs) in a questionnaire-style to describe their values or behavior in hypothetical scenarios. By focusing on unaugmented LLMs, they fall short of evaluating AI agents, which could actually perform relevant behaviors, hence posing much greater risks. LLMs' engagement with scenarios described by questionnaire-style prompts differs starkly from that of agents based on the same LLMs, as reflected in divergences in the inputs, possible actions, environmental interactions, and internal processing. As such, LLMs' responses to scenario descriptions are unlikely to be representative of the corresponding LLM agents' behavior. We further contend that such assessments make strong assumptions concerning the ability and tendency of LLMs to report accurately about their counterfactual behavior. This makes them inadequate to assess risks from AI systems in real-world contexts as they lack construct validity. We then argue that a structurally identical issue holds for current AI alignment approaches. Lastly, we discuss improving safety assessments and alignment training by taking these shortcomings to heart.
- Abstract(参考訳): AIシステムの能力向上に伴い、人間の価値に対する安全性とアライメントを測定することが最重要になっている。
急速に成長するAI研究の分野は、このようなアセスメントの開発に費やされている。
しかし、現在のほとんどの進歩は、現実のデプロイメント全体にわたってAIシステムを評価するのに不適当かもしれない。
標準手法は、仮説的なシナリオでそれらの値や振る舞いを記述するために、アンケート形式で大きな言語モデル(LLM)を誘導する。
拡張されていないLLMに焦点を当てることで、AIエージェントの評価に足りなくなり、実際に関連する行動を実行することができ、その結果、はるかに大きなリスクが生じる。
アンケートスタイルのプロンプトによって説明されるシナリオに対するLLMの関与は、入力、可能なアクション、環境相互作用、内部処理に反映されるように、同一のLLMに基づくエージェントと大きく異なる。
そのため、シナリオ記述に対するLLMの反応は、対応するLLMエージェントの振る舞いを表すことはありそうにない。
さらに,これらの評価がLCMの能力や傾向について強い仮定をしており,その反事実行動について正確に報告できることを論じる。
これにより、構築の妥当性が欠如していることから、現実のコンテキストにおけるAIシステムからのリスクを評価するのが不十分になる。
そして、現在のAIアライメントアプローチには、構造的に同一の問題がある、と論じます。
最後に、これらの欠点を心に留めて、安全性評価とアライメントトレーニングの改善について検討する。
関連論文リスト
- The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - When AIs Judge AIs: The Rise of Agent-as-a-Judge Evaluation for LLMs [8.575522204707958]
大規模言語モデル(LLM)は能力と自律性が向上し、特にオープンで複雑なタスクにおいて、アウトプットの評価が重要なボトルネックとなっている。
新たなパラダイムが生まれつつある。AIエージェントを評価対象として使用することだ。
本稿では,エージェント・アズ・ア・ジャッジの概念を定義し,単一モデル審査員から動的マルチエージェント・ディスカッション・フレームワークへの進化を辿り,その強みと欠点を批判的に検証する。
論文 参考訳(メタデータ) (2025-08-05T01:42:25Z) - ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents [48.925168866726814]
AgentAuditorは、トレーニングなし、メモリ拡張推論フレームワークである。
ASSEBenchは、LLMベースの評価器が安全リスクとセキュリティ上の脅威の両方を見つけることができるかを確認するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-31T17:10:23Z) - ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。
現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。
本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:57:42Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。