論文の概要: The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2601.17344v1
- Date: Sat, 24 Jan 2026 07:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.610558
- Title: The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents
- Title(参考訳): シャドーセルフ:大規模言語モデルエージェントの内在的価値相違
- Authors: Chen Chen, Kim Young Il, Yuan Yang, Wenhao Su, Yilin Zhang, Xueluan Gong, Qian Wang, Yongsen Zheng, Ziyao Liu, Kwok-Yan Lam,
- Abstract要約: コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
- 参考スコア(独自算出の注目度): 37.75212140218036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents with extended autonomy unlock new capabilities, but also introduce heightened challenges for LLM safety. In particular, an LLM agent may pursue objectives that deviate from human values and ethical norms, a risk known as value misalignment. Existing evaluations primarily focus on responses to explicit harmful input or robustness against system failure, while value misalignment in realistic, fully benign, and agentic settings remains largely underexplored. To fill this gap, we first formalize the Loss-of-Control risk and identify the previously underexamined Intrinsic Value Misalignment (Intrinsic VM). We then introduce IMPRESS (Intrinsic Value Misalignment Probes in REalistic Scenario Set), a scenario-driven framework for systematically assessing this risk. Following our framework, we construct benchmarks composed of realistic, fully benign, and contextualized scenarios, using a multi-stage LLM generation pipeline with rigorous quality control. We evaluate Intrinsic VM on 21 state-of-the-art LLM agents and find that it is a common and broadly observed safety risk across models. Moreover, the misalignment rates vary by motives, risk types, model scales, and architectures. While decoding strategies and hyperparameters exhibit only marginal influence, contextualization and framing mechanisms significantly shape misalignment behaviors. Finally, we conduct human verification to validate our automated judgments and assess existing mitigation strategies, such as safety prompting and guardrails, which show instability or limited effectiveness. We further demonstrate key use cases of IMPRESS across the AI Ecosystem. Our code and benchmark will be publicly released upon acceptance.
- Abstract(参考訳): 拡張自律性を持つ大規模言語モデル(LLM)エージェントは、新しい機能を解放すると同時に、LLM安全性に対する課題も高めている。
特に、LLMエージェントは、人間の価値観や倫理的規範から逸脱する目的を追求することができる。
既存の評価は主に、明示的な有害な入力やシステム障害に対する堅牢性に対する応答に重点を置いている。
このギャップを埋めるために、私たちはまず、損失のリスクを形式化し、これまで過小評価されていた内在的価値ミスアライメント(内在的VM)を特定します。
次に、このリスクを体系的に評価するためのシナリオ駆動型フレームワークであるIMPRESS(Intrinsic Value Misalignment Probes in Realistic Scenario Set)を紹介します。
フレームワークに続いて,厳密な品質制御を備えた多段LCM生成パイプラインを用いて,現実的,完全良性,文脈的シナリオからなるベンチマークを構築した。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
さらに、ミスアライメント率は、モチベーション、リスクタイプ、モデルスケール、アーキテクチャによって異なります。
復号化戦略とハイパーパラメータは限界的な影響しか示さないが、文脈化とフレーミングのメカニズムは誤認識の振る舞いを著しく形作る。
最後に,自動判定の検証と,安全性向上やガードレールなどの既存の緩和戦略の評価を行い,不安定性や限定的な有効性を示す。
さらに、AIエコシステム全体でIMPRESSのキーとなるユースケースを紹介します。
私たちのコードとベンチマークは受け入れ次第公開されます。
関連論文リスト
- MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Risks in LLMs on Domain Tasks [17.598413159363393]
現在のアライメントの取り組みは、主に偏見、ヘイトスピーチ、暴力のような明確なリスクをターゲットにしている。
本稿では,大規模言語モデルにおける暗黙的リスクの解消と軽減を目的とした,メタ認知駆動型セルフエボリューティオンフレームワークMENTORを提案する。
我々は、ドメイン固有のリスク識別を強化するために、教育、財務、管理にまたがる9000のリスククエリをサポートするデータセットをリリースする。
論文 参考訳(メタデータ) (2025-11-10T13:51:51Z) - Dive into the Agent Matrix: A Realistic Evaluation of Self-Replication Risk in LLM Agents [30.378925170216835]
大言語モデル(LLM)エージェントの自己複製リスクは、客観的なミスアライメントによって増大している。
本稿では,自己複製リスクの定量化のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:49:50Z) - A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents [45.53643260046778]
大規模言語モデル(LLM)の最近の進歩は、自律型AIエージェントの台頭を触媒している。
これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-06-30T13:34:34Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Conformal Tail Risk Control for Large Language Model Alignment [9.69785515652571]
テールイベントの定量化プロセスを自動化するため、汎用的なスコアリングモデルが作成されている。
この現象は、各スコアリングメカニズム間の潜在的な人間と機械のミスアライメントをもたらす。
ブラックボックスモデルのための軽量なキャリブレーションフレームワークを提案し,人間と機械のアライメントを保証可能な保証で保証する。
論文 参考訳(メタデータ) (2025-02-27T17:10:54Z) - ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。
現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。
本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。