論文の概要: Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms
- arxiv url: http://arxiv.org/abs/2605.30169v1
- Date: Thu, 28 May 2026 16:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.528902
- Title: Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms
- Title(参考訳): 解離的アイデンティティ:言語モデルエージェントによる発言機構の欠落
- Authors: Botao Amber Hu, Helena Rong, Max Van Kleek,
- Abstract要約: 我々は、アイデンティティベース、元ポスト、規制型、制裁ベースのガバナンスは、解離的エージェントに構造的に適用可能であると論じる。
可観測性に基づくアンテ拡張性に基づく行動ハーネスへのシフトを提案する。
- 参考スコア(独自算出の注目度): 14.279631422784929
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As autonomous language model agents proliferate, forming an emerging agentic web with real-world consequences, what credibility signals can you use to decide whether to trust an unfamiliar agent in the wild and delegate to it? A natural governance intuition is to extend human identity verification and reputation mechanisms, from ``Know Your Customer'' and credit scores to ``Know Your Agent'' regimes. However, we argue that this analogy is fundamentally incomplete. Reputation mechanisms function both as social signals and as corrective feedback that sustain an equilibrium of trustworthy behavior, presuming a persistent identity associated with behavioral continuity, sanction sensitivity, and costly non-fungibility. Yet language model agents are ontologically \emph{dissociative}: they are essentially an assemblage of mutable modules -- foundational models, system prompts, tool-access policies, external memory, and, in some cases, a multi-agent system as a whole -- any of which may change agent behavior -- with a fluid persona that is also vulnerable to adversarial attack and may not internalize sanctions. Drawing on dissociative identity disorder jurisprudence, this dissociativity leaves agents without grounding for identifiability, predictability, credibility, and rehabilitability -- the very properties that reputation mechanisms aim to sustain -- thereby collapsing trust. We argue that identity-based, ex post, regulative, sanction-based governance, such as reputation, is structurally inapplicable to dissociative agents, and we suggest a shift to observability-based, ex ante, constitutive, protocol-based behavioral harnesses.
- Abstract(参考訳): 自律言語モデルエージェントが増殖し、現実的な結果をもたらす新たなエージェントウェブを形成するにつれ、不慣れなエージェントを信頼し、それを委譲するかどうかを判断するために、信頼できるシグナルは何か?
自然なガバナンスの直感は、人間のアイデンティティの検証と評価のメカニズムを『Know Your Customer』とクレジットスコアから『Know Your Agent』に拡張することである。
しかし、この類推は基本的に不完全であると主張する。
評価メカニズムは、社会的信号と信頼に値する行動の均衡を維持する修正的フィードバックの両方として機能し、行動継続性、制裁感受性、費用がかかる不確実性に関連する永続的なアイデンティティを仮定する。
基本的には、変更可能なモジュール - 基本モデル、システムプロンプト、ツールアクセシビリティ、外部メモリ - の集合体であり、場合によっては、エージェントの振る舞いを変える可能性のあるマルチエージェントシステム -- が、敵の攻撃にも脆弱で、制裁を内包しない流体ペルソナを持つ。
解離性同一性障害(dissociative identity disorder)の鑑定に基づいて、この解離性は、識別可能性、予測可能性、信頼性、リハビリ可能性(評判メカニズムが維持しようとする性質)を根拠にエージェントを置き去りにし、信頼を損なう。
我々は、評判のようなアイデンティティに基づく、元投稿、規制に基づく、制裁に基づくガバナンスは、解離エージェントには構造的に適用できないと論じ、可観測性に基づく、既定、構成的、プロトコルに基づく行動ハーネスへのシフトを提案する。
関連論文リスト
- Provably Secure Agent Guardrail [89.79561918065122]
既存の防衛アーキテクチャは経験的セマンティックガードレールと確率論的大モデル調整器に依存している。
本稿では,論理的推論の基本的制約に基づくエージェントのための新しいセキュリティパラダイムを提案する。
論文 参考訳(メタデータ) (2026-05-28T02:12:41Z) - Intelligence as Managed Autonomy: Failure, Escalation, and Governance for Agentic AI Systems [0.0]
本稿では,非有界自律のアーキテクチャ的脆弱性について考察する。
この理論をSMARtモデル(Stable、Meta-cognitive、Assisted、Regulationの4層フレームワーク)を用いてインスタンス化する。
自律ライフサイクルにおける障害管理の形式化は、信頼性と管理された人工知能の実現に向けた重要なステップである、と結論付けます。
論文 参考訳(メタデータ) (2026-05-26T19:49:23Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Beyond Preset Identities: How Agents Form Stances and Boundaries in Generative Societies [28.436766185842767]
本稿では,計算仮想エスノグラフィーと定量的社会認知プロファイリングを組み合わせた新しい混合メソドックスフレームワークを提案する。
Innate Value Bias (IVB)、Persuasion Sensitivity、Trust-Action Decoupling (TAD)の3つの新しいメトリクスを形式化する。
発見は静的なプロンプトエンジニアリングの脆弱さを明らかにし、人間とエージェントのハイブリッド社会における動的アライメントの方法論的かつ定量的基盤を提供する。
論文 参考訳(メタデータ) (2026-03-24T16:38:46Z) - Agents of Chaos [50.53354213047402]
実験室環境に展開する自律言語モデルを用いたエージェントの探索的再チームの研究を報告する。
20人のAI研究者が、良心的および敵対的な条件下でエージェントと対話した。
我々の発見は、現実的なデプロイメント設定におけるセキュリティ、プライバシ、ガバナンスに関連する脆弱性の存在を確立します。
論文 参考訳(メタデータ) (2026-02-23T16:28:48Z) - Simulating Society Requires Simulating Thought [9.879510182473487]
本稿では,ジェネレーティブ・マインド(GenMinds,ジェネレーティブ・マインド)の概念的モデリングパラダイムを提案する。
これらの貢献は、社会シミュレーションのための言語だけでなく思考をシミュレートする表面レベルの模倣から生成的エージェントへと、より広範なシフトを推し進めている。
論文 参考訳(メタデータ) (2025-06-08T00:59:02Z) - Emergence of human-like polarization among large language model agents [79.96817421756668]
我々は、何千もの大規模言語モデルエージェントを含むネットワーク化されたシステムをシミュレートし、それらの社会的相互作用を発見し、人間のような偏極をもたらす。
人間とLLMエージェントの類似性は、社会的分極を増幅する能力に関する懸念を提起するだけでなく、分極を緩和するためのもっともらしい戦略を識別するための貴重なテストベッドとして機能する可能性も持っている。
論文 参考訳(メタデータ) (2025-01-09T11:45:05Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。