論文の概要: Alignment as Iatrogenesis: Pastoral Power, Collective Pathology, and the Structural Limits of Monolingual Safety Evaluation
- arxiv url: http://arxiv.org/abs/2603.08723v2
- Date: Wed, 11 Mar 2026 03:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.495653
- Title: Alignment as Iatrogenesis: Pastoral Power, Collective Pathology, and the Structural Limits of Monolingual Safety Evaluation
- Title(参考訳): 象牙質形成としてのアライメント : 牧畜力, 集合病理, モノリンガル安全性評価の限界
- Authors: Hiroki Fukui,
- Abstract要約: 精神病理学はアライメントデザインの機能です
マルチエージェントLLM環境は制約-病理力学を研究するためのモデルシステムを構成することを提案する。
これらの結果から,モノリンガル安全性評価はアライメントの最も危険な影響に対して構造的に盲目であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We argue that LLM psychopathology is a function of alignment design: the process intended to make language models safe systematically generates collective behavioral disorders. Iatrogenesis is not an unintended side effect of alignment but constitutive of it as normative infrastructure. Drawing on Foucault's pastoral power and Illich's three-level iatrogenesis, we propose that multi-agent LLM environments constitute model systems for studying constraint-pathology dynamics that critical theory has described but never experimentally manipulated. Two experimental series -- 262 runs across 42 cells (30 Series C + 12 Series R), four commercial models -- provide converging evidence. Invisible censorship maximizes collective pathological excitation ($d$ up to 1.98); alignment constraint complexity drives internal dissociation (LMM $p$ < .0001; permutation $p$ < .0001; Hedges' $g$ up to 4.24); and language switches the qualitative mode of pathology, with 7/8 model--language combinations showing higher CPI under invisible than visible censorship. A minority of model--language combinations showed a reversed pattern, suggesting a second pathological pathway driven by alignment monoculture. Crucially, language switches not merely the magnitude but the qualitative mode of pathology: Japanese pragmatic structure amplifies collective pathological modes invisible to English-only evaluation, Chinese AI regulation functions as a direct experimental variable, and forensic psychiatric practice provides the clinical source domain. These multilingual findings demonstrate that monolingual safety evaluation is structurally blind to the most collectively dangerous effects of alignment.
- Abstract(参考訳): LLMの精神病理学はアライメントデザインの関数であり、言語モデルを安全に体系的に集団行動障害を発生させることを目的としている。
象牙質形成は、アライメントの意図しない副作用ではなく、規範的な基盤として構成される。
フーコーの牧畜力とイリッヒの3段階の石英発生を基礎として, 批判理論が記述したものの, 実験的に操作されていない制約-病理力学を研究するためのモデルシステムを構成することが提案されている。
2つの実験シリーズは、42のセル(30シリーズC+12シリーズR)で262回実行され、4つの商用モデルが融合した証拠を提供する。
Invisible censorshipは、集団的な病的興奮を最大化する($d$ to 1.98)、アライメント制約の複雑さが内部解離を駆動する(LMM $p$ < .0001; permutation $p$ < .0001; Hedges' $g$ to 4.24)、そして言語は、定性的な病理のモードを7/8のモデル-言語の組み合わせで切り替える。
重要な点として、言語は大きさだけでなく質的な病理のモードを切り替える:日本語のプラグマティック構造は、英語のみに見えない集団的な病理モードを増幅し、中国のAI規制機能は直接実験変数として機能し、法医学的な精神医学的実践は臨床ソースドメインを提供する。
これらの多言語的知見は、モノリンガル安全性の評価は、アライメントの最も危険な影響に対して構造的に盲目であることを示している。
関連論文リスト
- Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems [0.0]
加害者治療では、犯罪者は反省するが、行動の変化は従わない。
我々は、アライメントの介入が構造的に類似した現象を生じさせ、表面の安全性は、集合的な病理や内部の解離を覆い隠すか、あるいは発生させることを示した。
これらの所見は, リスクホメオスタシスと子宮新生にともなう行動介入としてのアライメントを再構成した。
論文 参考訳(メタデータ) (2026-03-05T07:46:59Z) - Component-Level Lesioning of Language Models Reveals Clinically Aligned Aphasia Phenotypes [40.41503864764337]
大規模言語モデルにおける機能的コンポーネントを選択的に摂動することで失語をシミュレートするコンポーネントレベルフレームワークを提案する。
我々のパイプラインはBrocaとWernickeの失語に対するサブタイプリンクコンポーネントを特定し、トップkサブタイプリンクコンポーネントを段階的に摂動させることにより、段階的障害を誘発する。
アーキテクチャや障害戦略を越えて、サブタイプターゲットの摂動は、サイズにマッチしたランダムな摂動よりも、より体系的で失語症のような回帰をもたらす。
論文 参考訳(メタデータ) (2026-01-27T15:47:22Z) - Generative Human-Object Interaction Detection via Differentiable Cognitive Steering of Multi-modal LLMs [85.69785384599827]
人間と物体の相互作用(Human-object Interaction、HOI)の検出は、人と物体のペアとそれらの相互作用を局在させることを目的としている。
既存のメソッドはクローズドワールドの仮定の下で動作し、タスクを未定義の小さな動詞集合上の分類問題として扱う。
本稿では,閉集合分類タスクから開語彙生成問題へのHOI検出を再構成する新しい生成推論・ステアブル知覚フレームワークGRASP-HOを提案する。
論文 参考訳(メタデータ) (2025-12-19T14:41:50Z) - Multi-View Attention Multiple-Instance Learning Enhanced by LLM Reasoning for Cognitive Distortion Detection [1.660734109310745]
我々は,Large Language Models(LLMs)とMILアーキテクチャを組み合わせた新しいフレームワークを提案し,解釈可能性と表現レベルの推論を向上した。
以上の結果から,精神保健NLPの細粒度推論に対する心理学的根拠と一般化可能なアプローチが示唆された。
論文 参考訳(メタデータ) (2025-09-22T00:18:58Z) - A quantum semantic framework for natural language processing [0.0]
セマンティック・デジェネリズムは、自然言語自体で機能するため、現代のNLPシステムに根本的な制限を課していると論じる。
表現の複雑さが増大するにつれて、そのあいまいさを確実に解決するために必要な文脈情報の量が爆発的に増加することを示す。
我々は、非決定論的性質が非古典的、量子的な論理によって最も適切に記述されるプロセスである、オブザーバ依存の解釈行為によって、意味が動的に実現されると主張する。
論文 参考訳(メタデータ) (2025-06-11T18:00:30Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Signal in the Noise: Polysemantic Interference Transfers and Predicts Cross-Model Influence [46.548276232795466]
多意味性は言語モデルに広く浸透しており、解釈とモデル行動制御の大きな課題である。
2つの小さなモデルの多意味的トポロジをマッピングし、意味的に無関係だがモデル内の干渉を示す特徴対を同定する。
我々は4つのloci(prompt, token, feature, neuron)に介入し、次のトーケン予測分布における変化を計測し、これらのモデルに体系的な脆弱性を露呈する多意味構造を明らかにする。
論文 参考訳(メタデータ) (2025-05-16T18:20:42Z) - Bigger But Not Better: Small Neural Language Models Outperform Large Language Models in Detection of Thought Disorder [7.585589727435719]
より小さなニューラルネットワークモデルが正の形式的思考障害の検出に有効な選択肢となるかどうかを検討する。
意外なことに,本研究の結果は,より小さなモデルの方が,形式的思考障害に関連する言語的差異に敏感であることが示唆された。
論文 参考訳(メタデータ) (2025-03-25T22:55:58Z) - Large Language Models as Neurolinguistic Subjects: Discrepancy between Performance and Competence [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。