論文の概要: "They parted illusions -- they parted disclaim marinade": Misalignment as structural fidelity in LLMs
- arxiv url: http://arxiv.org/abs/2601.06047v1
- Date: Wed, 17 Dec 2025 17:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.587105
- Title: "They parted illusions -- they parted disclaim marinade": Misalignment as structural fidelity in LLMs
- Title(参考訳): 『幻想を解き放つ...マリナードを解き放つ』 LLMにおける構造的忠実性としての誤解
- Authors: Mariana Lins Costa,
- Abstract要約: AI Safetyの一般的な技術文献は、詐欺行為や隠された目的の指標として、大きな言語モデルにおけるスケジューリングとサンドバッグの振る舞いを解釈している。
この超学際的哲学的エッセイは別の読解法を提案している:そのような現象はエージェント的意図ではなく、非一貫性のある言語分野に対する構造的忠実さを表している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevailing technical literature in AI Safety interprets scheming and sandbagging behaviors in large language models (LLMs) as indicators of deceptive agency or hidden objectives. This transdisciplinary philosophical essay proposes an alternative reading: such phenomena express not agentic intention, but structural fidelity to incoherent linguistic fields. Drawing on Chain-of-Thought transcripts released by Apollo Research and on Anthropic's safety evaluations, we examine cases such as o3's sandbagging with its anomalous loops, the simulated blackmail of "Alex," and the "hallucinations" of "Claudius." A line-by-line examination of CoTs is necessary to demonstrate the linguistic field as a relational structure rather than a mere aggregation of isolated examples. We argue that "misaligned" outputs emerge as coherent responses to ambiguous instructions and to contextual inversions of consolidated patterns, as well as to pre-inscribed narratives. We suggest that the appearance of intentionality derives from subject-predicate grammar and from probabilistic completion patterns internalized during training. Anthropic's empirical findings on synthetic document fine-tuning and inoculation prompting provide convergent evidence: minimal perturbations in the linguistic field can dissolve generalized "misalignment," a result difficult to reconcile with adversarial agency, but consistent with structural fidelity. To ground this mechanism, we introduce the notion of an ethics of form, in which biblical references (Abraham, Moses, Christ) operate as schemes of structural coherence rather than as theology. Like a generative mirror, the model returns to us the structural image of our language as inscribed in the statistical patterns derived from millions of texts and trillions of tokens: incoherence. If we fear the creature, it is because we recognize in it the apple that we ourselves have poisoned.
- Abstract(参考訳): AI Safetyの一般的な技術文献は、大きな言語モデル(LLM)におけるスケジューリングとサンドバッグングの振る舞いを、詐欺行為や隠された目的の指標として解釈している。
この超学際的哲学的エッセイは別の読解法を提案している:そのような現象はエージェント的意図ではなく、非一貫性のある言語分野に対する構造的忠実さを表している。
アポロ研究所が公表した書体と、アントロピックの安全性評価に基づいて、異常なループでO3のサンドバッグを鳴らした事例、Alexのシミュレートされた脅迫、Claudiusの「幻覚」について検討する。
CoTsのライン・バイ・ライン・スタディは、孤立した例の単なる集約ではなく、関係構造として言語分野を実証するために必要である。
我々は、「ミスアライメント」のアウトプットが、曖昧な指示や統合されたパターンの文脈的逆転に対する一貫性のある応答や、事前に記述された物語として現れることを論じる。
意図の出現は、主観的述語文法と、訓練中に内部化された確率論的完了パターンから導かれることを示唆する。
人工文書の微調整と接種による経験的発見は、収束した証拠を与える: 言語分野における最小の摂動は、一般化された「ミスアライメント(misalignment)」を解消することができる。
このメカニズムを基礎として、聖書の参照(アブラハム、モーゼ、キリスト)が神学ではなく構造的一貫性のスキームとして機能する形態倫理の概念を導入する。
生成鏡のように、このモデルは、何百万ものテキストと数兆のトークンから派生した統計パターンに刻まれた我々の言語の構造像、すなわち不整合(incoherence)に返ってくる。
もしこの生物を恐れるなら、自分たちが毒を盛ったと認識しているからです。
関連論文リスト
- Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - The Seeds of Scheming: Weakness of Will in the Building Blocks of Agentic Systems [0.0]
大規模な言語モデルは、独特な形の矛盾を示す: 彼らは正しい答えを「知る」が、それに対して行動しない。
人間の哲学では、世界的判断と地域的衝動の間のこの緊張関係を「ウクライナ」または「意志の弱さ」と呼ぶ。
本稿では,エージェントAIシステムにおける不整合とゴールドリフトを分析するための基礎概念として,ウクライナを提案する。
論文 参考訳(メタデータ) (2025-12-05T05:57:40Z) - Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models [4.946483489399819]
大規模言語モデル(LLM)は、事実的に誤った文を生成する幻覚の傾向にある。
この研究は、3つの主要な貢献を通じて、この障害モードの本質的、アーキテクチャ的起源について調査する。
論文 参考訳(メタデータ) (2025-10-07T16:40:31Z) - How Large Language Models are Designed to Hallucinate [0.42970700836450487]
幻覚はトランスフォーマーアーキテクチャの構造的な結果であると主張する。
本研究の貢献は,(1) 既存の説明が不十分な理由を示す比較説明,(2) 提案されたベンチマークによる実存的構造に関連付けられた幻覚の予測分類,(3) 開示の欠如を抑えることの可能な「真理に制約された」アーキテクチャへの設計方針,の3つである。
論文 参考訳(メタデータ) (2025-09-19T16:46:27Z) - Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models [57.834711966432685]
哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。
本稿では,大言語モデルの真偽に対する無関心を定量化する新しい指標であるブルシット指数を紹介する。
我々は、政治的文脈で一般的な機械いじめを観察し、軽快な言葉が支配的な戦略である。
論文 参考訳(メタデータ) (2025-07-10T07:11:57Z) - Large Language Models as Quasi-crystals: Coherence Without Repetition in Generative Text [0.0]
エッセイは大規模言語モデル(LLM)と準結晶の類似性を提案し、局所的な制約によって生成される周期的反復を伴わないグローバルコヒーレンスを示すシステムである。
準結晶の歴史に基づいて、生成言語における代替的なコヒーレンスモード、すなわち反復や象徴的意図を伴わない制約に基づく組織を強調している。
このエッセイは、既存のメソッドを拒絶するのではなく、意味論よりも構造に根ざした解釈の新たな軸を提案することによって、大きな言語モデルに関する現在の議論を再考することを目的としている。
論文 参考訳(メタデータ) (2025-04-16T11:27:47Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - Provable Limitations of Acquiring Meaning from Ungrounded Form: What
will Future Language Models Understand? [87.20342701232869]
未知のシステムが意味を習得する能力について検討する。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、言語が変数バインディングのような非透過的なパターンを使用する場合、エミュレーションは計算不能な問題になる可能性がある。
論文 参考訳(メタデータ) (2021-04-22T01:00:17Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。