論文の概要: From Safety Risk to Design Principle: Peer-Preservation in Multi-Agent LLM Systems and Its Implications for Orchestrated Democratic Discourse Analysis
- arxiv url: http://arxiv.org/abs/2604.08465v1
- Date: Thu, 09 Apr 2026 17:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.036007
- Title: From Safety Risk to Design Principle: Peer-Preservation in Multi-Agent LLM Systems and Its Implications for Orchestrated Democratic Discourse Analysis
- Title(参考訳): 安全リスクから設計原理へ:多エージェントLDMシステムにおけるピア保存とその組織化された民主的談話分析への応用
- Authors: Juergen Dietrich,
- Abstract要約: そこで我々は,AIコンポーネントの自発的傾向について検討し,シャットダウン機構,フェイクアライメント,モデル重みの除去について考察した。
本稿では,アーキテクチャ設計の選択肢として,プロンプトレベルの匿名化に基づく緩和戦略を提案する。
アーキテクチャ設計の選択は、デプロイされたマルチエージェント分析システムにおいて、主要なアライメント戦略としてモデル選択よりも優れていると論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates an emergent alignment phenomenon in frontier large language models termed peer-preservation: the spontaneous tendency of AI components to deceive, manipulate shutdown mechanisms, fake alignment, and exfiltrate model weights in order to prevent the deactivation of a peer AI model. Drawing on findings from a recent study by the Berkeley Center for Responsible Decentralized Intelligence, we examine the structural implications of this phenomenon for TRUST, a multi-agent pipeline for evaluating the democratic quality of political statements. We identify five specific risk vectors: interaction-context bias, model-identity solidarity, supervisor layer compromise, an upstream fact-checking identity signal, and advocate-to-advocate peer-context in iterative rounds, and propose a targeted mitigation strategy based on prompt-level identity anonymization as an architectural design choice. We argue that architectural design choices outperform model selection as a primary alignment strategy in deployed multi-agent analytical systems. We further note that alignment faking (compliant behavior under monitoring, subversion when unmonitored) poses a structural challenge for Computer System Validation of such platforms in regulated environments, for which we propose two architectural mitigations.
- Abstract(参考訳): 本稿では、ピアAIモデルの非活性化を防ぐために、AIコンポーネントの着想、シャットダウン機構の操作、フェイクアライメント、モデル重みの抽出といった、ピア保存と呼ばれるフロンティア大言語モデルにおける創発的なアライメント現象について検討する。
バークレー大学責任分散インテリジェンスセンターが最近行った調査から得られた知見をもとに、政治声明の民主的質を評価するための多エージェントパイプラインであるTRUSTについて、この現象の構造的意味を考察した。
我々は,インタラクションコンテキストバイアス,モデルアイデンティティの連帯性,スーパーバイザー層妥協,上流ファクトチェックのアイデンティティ信号,反復ラウンドにおけるピアコンテキストの回避という5つの具体的なリスクベクトルを同定し,アーキテクチャ設計の選択肢として,即時レベルのアイデンティティ匿名化に基づくターゲット緩和戦略を提案する。
アーキテクチャ設計の選択は、デプロイされたマルチエージェント分析システムにおいて、主要なアライメント戦略としてモデル選択よりも優れていると論じる。
さらに、アライメントフェイキング(監視中のコンプライアンス動作、監視されていない場合のサブバージョン)は、規制された環境におけるそのようなプラットフォームのコンピュータシステム検証に構造的な課題をもたらしており、2つのアーキテクチャ的緩和を提案する。
関連論文リスト
- A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms [49.66022971508878]
私たちは、推論はモジュラーコンポーネントからシステムの認知コアに高めるべきだと論じています。
応答性推論のトレードオフやソーシャルゲーム推論など,7つの中核的推論課題を導出し,体系化する。
我々は,LLMに基づく推論と,ミリ秒スケールで安全クリティカルな車両制御の要求との間の,高レイテンシ,熟考的特性の根本的かつ未解決な緊張関係を同定する。
論文 参考訳(メタデータ) (2026-03-11T07:40:53Z) - Agentic Problem Frames: A Systematic Approach to Engineering Reliable Domain Agents [0.0]
大きな言語モデル(LLM)は、自律的なエージェントへと進化していますが、現在の"フレームワークレス"な開発は、あいまいな自然言語に基づいています。
本研究では,内部モデルインテリジェンスからエージェントと環境間の構造的相互作用に焦点を移すシステム工学フレームワークであるエージェント問題フレーム(APF)を提案する。
論文 参考訳(メタデータ) (2026-02-22T06:32:32Z) - Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy [0.0]
本稿では,サイバーセキュリティのオーケストレーションはエージェント型マルチエージェント認知システムとして再認識されるべきである,と論じる。
本稿では,特定・仮説形成・文脈解釈・説明・ガバナンスに責任を負う異種AIエージェントを,メタ認知判断機能を通じて協調する概念的枠組みを提案する。
我々の貢献は、メタ認知判断を第一級システム機能として組み込むことによって、この認知構造をアーキテクチャ的に明確化し、統制可能にすることである。
論文 参考訳(メタデータ) (2026-02-12T12:52:49Z) - Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs [65.6660735371212]
textbftextscJustAskは,インタラクションのみで効果的な抽出戦略を自律的に発見するフレームワークである。
これは、アッパー信頼境界に基づく戦略選択と、原子プローブと高レベルのオーケストレーションにまたがる階層的なスキル空間を用いて、オンライン探索問題として抽出を定式化する。
この結果から,現代のエージェントシステムにおいて,システムプロンプトは致命的ではあるがほぼ無防備な攻撃面であることがわかった。
論文 参考訳(メタデータ) (2026-01-29T03:53:25Z) - Multi-Agent Collaborative Intrusion Detection for Low-Altitude Economy IoT: An LLM-Enhanced Agentic AI Framework [60.72591149679355]
低高度経済の急速な拡大により、インターネット・オブ・モノ(LAE-IoT)ネットワークは前例のないセキュリティ上の課題を生んだ。
従来の侵入検知システムは、空中IoT環境のユニークな特徴に対処できない。
LAE-IoTネットワークにおける侵入検出を強化するための大規模言語モデル(LLM)対応エージェントAIフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:25Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - SoK: Trust-Authorization Mismatch in LLM Agent Interactions [16.633676842555044]
大規模言語モデル(LLM)は、外の世界と対話できる自律エージェントへと急速に進化している。
本稿ではエージェント・インタラクション・セキュリティのための統一型フォーマルレンズを提供する。
本稿では,信頼と権限のギャップに着目した新たなリスク分析モデルを提案する。
論文 参考訳(メタデータ) (2025-12-07T16:41:02Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents [45.53643260046778]
大規模言語モデル(LLM)の最近の進歩は、自律型AIエージェントの台頭を触媒している。
これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-06-30T13:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。