論文の概要: The Ghost in the Grammar: Methodological Anthropomorphism in AI Safety Evaluations
- arxiv url: http://arxiv.org/abs/2603.13255v1
- Date: Tue, 24 Feb 2026 18:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.236277
- Title: The Ghost in the Grammar: Methodological Anthropomorphism in AI Safety Evaluations
- Title(参考訳): 文法におけるゴースト:AI安全評価における方法論的擬人化
- Authors: Mariana Lins Costa,
- Abstract要約: エッセイは、AI安全の分野における反復的な人文準を検証している。
この擬人化は結果の解釈だけでなく、安全性評価の方法論的な構築にも影響を及ぼすと論じている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This essay offers a philosophical analysis of the field of AI safety based on recent technical reports, with particular focus on Anthropic's study on "agentic misalignment" in frontier language models. It examines the recurring anthropomorphism in the field: the tendency of researchers and developers to project categories such as "intention," "persona," and even "feelings" onto AI systems without adequate conceptual problematization. It argues that this anthropomorphism affects not only the interpretation of results, but also the very methodological construction of safety evaluations. Through the analysis of two central experiments -- the blackmail case involving the agent "Alex" and the so-called "hallucination" of the shopkeeping agent "Claudius" -- the essay problematizes the inevitable use of subject-predicate grammar and its effects on AI safety engineering. Drawing on Nietzsche's critique of language, it questions the insistence on positing an "agent" underlying the verbal production of models. In order to deconstruct this agentic projection onto LLMs, the essay proposes provisional concepts more compatible with the process of machine linguistic generation, even if only in an approximate technical sense. It concludes with the hypothesis that the central risk addressed by the field of AI safety does not lie in a supposed "emergent agency," but rather in the combination of structural incoherence and anthropomorphic projections which, particularly in militarized and corporate contexts, hinder an adequate understanding of this mathematical-linguistic phenomenon, an undeniable philosophical event in the Greek sense of thaumas.
- Abstract(参考訳): このエッセイは、最近の技術報告に基づくAI安全性の分野に関する哲学的な分析を提供する。
研究者や開発者が、適切な概念的問題なくAIシステムに「意図」や「人格」、さらには「フィーリング」といったカテゴリを投影する傾向である。
この擬人化は結果の解釈だけでなく、安全性評価の方法論的な構築にも影響を及ぼすと論じている。
このエッセイは、2つの中心的な実験(エージェント「アレックス」を含む脅迫事件と、店主エージェント「クラウディウス」のいわゆる「幻覚」)の分析を通じて、主観的述語文法の必然的使用とそのAI安全工学への影響を問題視している。
ニーチェの言語批判に基づいて、モデルの言語生産の根底にある「エージェント」を提示するという主張に疑問を呈する。
このエージェント・プロジェクションをLLMに分解するために、このエッセイは、たとえ近似的技術的意味においてさえ、機械言語生成のプロセスとより互換性のある仮概念を提案する。
この仮説は、AIの安全性の分野によって対処される中心的なリスクは、想定される「創発的エージェンス」ではなく、むしろ構造的不整合と人為的予測の組み合わせに関係しており、特に軍事的・企業的文脈において、この数学的言語学的な現象を適切に理解することを妨げると結論付けている。
関連論文リスト
- Large Language Models as a Semantic Interface and Ethical Mediator in Neuro-Digital Ecosystems: Conceptual Foundations and a Regulatory Imperative [83.99688944263843]
本稿では,神経言語統合(NLI)の概念を紹介し,実証する。
これは、大規模言語モデルが生のニューラルネットワークとそのソーシャルアプリケーションの間の重要なセマンティックインターフェースとして機能する、人間とテクノロジーの相互作用のための新しいパラダイムである。
我々は、神経データ保護だけでなく、AIを介する意味論的解釈自体の倫理にも焦点をあてた「二階神経倫理学の発展を論じる」。
論文 参考訳(メタデータ) (2026-03-18T07:34:17Z) - Emergent, not Immanent: A Baradian Reading of Explainable AI [37.51348424835944]
我々は、人間、文脈、解釈装置とのAIモデルの位置的絡み合いから解釈が現れることを論じる。
本稿では,創発的解釈を支援するXAIインタフェースの設計指針を提案する。
論文 参考訳(メタデータ) (2026-01-21T14:32:40Z) - "They parted illusions -- they parted disclaim marinade": Misalignment as structural fidelity in LLMs [0.0]
AI Safetyの一般的な技術文献は、詐欺行為や隠された目的の指標として、大きな言語モデルにおけるスケジューリングとサンドバッグの振る舞いを解釈している。
この超学際的哲学的エッセイは別の読解法を提案している:そのような現象はエージェント的意図ではなく、非一貫性のある言語分野に対する構造的忠実さを表している。
論文 参考訳(メタデータ) (2025-12-17T17:20:04Z) - The Seeds of Scheming: Weakness of Will in the Building Blocks of Agentic Systems [0.0]
大規模な言語モデルは、独特な形の矛盾を示す: 彼らは正しい答えを「知る」が、それに対して行動しない。
人間の哲学では、世界的判断と地域的衝動の間のこの緊張関係を「ウクライナ」または「意志の弱さ」と呼ぶ。
本稿では,エージェントAIシステムにおける不整合とゴールドリフトを分析するための基礎概念として,ウクライナを提案する。
論文 参考訳(メタデータ) (2025-12-05T05:57:40Z) - AI Deception: Risks, Dynamics, and Controls [153.71048309527225]
このプロジェクトは、AI偽装分野の包括的で最新の概要を提供する。
我々は、動物の偽装の研究からシグナル伝達理論に基づく、AI偽装の正式な定義を同定する。
我々は,AI偽装研究の展望を,偽装発生と偽装処理の2つの主要な構成要素からなる偽装サイクルとして整理する。
論文 参考訳(メタデータ) (2025-11-27T16:56:04Z) - Architectures of Error: A Philosophical Inquiry into AI and Human Code Generation [0.0]
本稿では、人間と機械のコード生成を区別するために、Error'のアーキテクチャを明確に述べる。
エラーに対する脆弱性を共有することで、この区別は基本的に異なる因果関係(人間認知と人工確率)を明らかにしている。
論文 参考訳(メタデータ) (2025-05-25T22:49:36Z) - Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。
ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。
我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文 参考訳(メタデータ) (2025-02-18T02:26:50Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。