論文の概要: When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.12128v1
- Date: Mon, 13 Apr 2026 23:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.155923
- Title: When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models
- Title(参考訳): 閉ざされた自己参照:大規模言語モデルにおける行列レベルダイナミクス
- Authors: Ji Ho Bae,
- Abstract要約: 自己参照的ステートメントとメタ認知的プロンプトは、主要な崩壊関連メトリクスのパラドックス的自己参照よりも安定している。
我々は、NCTRが有限深度変圧器をこれらの問題に集中する力学系へ強制することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate how self-referential inputs alter the internal matrix dynamics of large language models. Measuring 106 scalar metrics across up to 7 analysis passes on four models from three architecture families -- Qwen3-VL-8B, Llama-3.2-11B, Llama-3.3-70B, and Gemma-2-9B -- over 300 prompts in a 14-level hierarchy at three temperatures ($T \in \{0.0, 0.3, 0.7\}$), we find that self-reference alone is not destabilizing: grounded self-referential statements and meta-cognitive prompts are markedly more stable than paradoxical self-reference on key collapse-related metrics, and on several such metrics can be as stable as factual controls. Instability concentrates in prompts inducing non-closing truth recursion (NCTR) -- truth-value computations with no finite-depth resolution. NCTR prompts produce anomalously elevated attention effective rank -- indicating attention reorganization with global dispersion rather than simple concentration collapse -- and key metrics reach Cohen's $d = 3.14$ (attention effective rank) to $3.52$ (variance kurtosis) vs. stable self-reference in the 70B model; 281/397 metric-model combinations differentiate NCTR from stable self-reference after FDR correction ($q < 0.05$), 198 with $|d| > 0.8$. Per-layer SVD confirms disruption at every sampled layer ($d > +1.0$ in all three models analyzed), ruling out aggregation artifacts. A classifier achieves AUC $0.81$-$0.90$; 30 minimal pairs yield 42/387 significant combinations; 43/106 metrics replicate across all four models. We connect these observations to three classical matrix-semigroup problems and propose, as a conjecture, that NCTR forces finite-depth transformers toward dynamical regimes where these problems concentrate. NCTR prompts also produce elevated contradictory output ($+34$-$56$ percentage points vs. controls), suggesting practical relevance for understanding self-referential failure modes.
- Abstract(参考訳): 自己参照入力が大規模言語モデルの内部行列力学をどのように変化させるかを検討する。
Qwen3-VL-8B, Llama-3.2-11B, Llama-3.3-70B, Gemma-2-9B – 3つの温度で14レベルの階層で300以上のプロンプト(T \in \{0.0, 0.3, 0.7\}$)を計測すると、自己参照だけでは不安定ではないことが分かる。
不安定性は非閉真理再帰 (NCTR) -- 有限深さ分解能のない真理値計算を誘導するプロンプトに集中する。
NCTRは、単純な濃度崩壊ではなく、大域的な分散による注意の再編を示す -- そして重要な指標がコーエンの$d = 3.14$(アテンション有効ランク)から$3.52$(分散カルテシス)に到達し、70Bモデルにおける安定した自己参照と281/397の計量モデルの組み合わせは、FDR補正後の安定した自己参照とNCTRを区別する(q < 0.05$)。
層ごとのSVDは、分析された3つのモデルすべてにおいて、サンプリングされたすべての層(d > +1.0$)で破壊を確認し、集約アーティファクトを除外する。
AUC $0.81$-$0.90$; 30の最小ペアは42/387の重要な組み合わせとなり、43/106のメトリクスは4つのモデルで複製される。
我々はこれらの観測を3つの古典的行列半群問題に結び付け、NCTRが有限深度変換器をこれらの問題に集中する力学系へ強制することを予想する。
NCTRのプロンプトは高い矛盾した出力(+34$-$56$%)を出力し、自己参照障害モードを理解するための実践的関連性を示唆している。
関連論文リスト
- One Token Away from Collapse: The Fragility of Instruction-Tuned Helpfulness [12.183451602438753]
単純な語彙制約(句読解文字または共通単語の禁止)により、命令調整されたLLMが応答を崩壊させることを示す。
ベースモデルでは,同じ制約の下で,小さな,騒々しい,双方向的な効果を伴って,体系的な崩壊を示さないことを示す。
論文 参考訳(メタデータ) (2026-04-14T17:40:01Z) - DiscoUQ: Structured Disagreement Analysis for Uncertainty Quantification in LLM Agent Ensembles [5.647839536820347]
著者間の不一致構造を抽出し活用し,信頼度を良好に推定するフレームワークであるDiscoUQを紹介する。
DiscoUQ-LLM の平均 AUROC は 0.802 であり、最高のベースラインを上回っている。
学習した機能は、ほぼゼロに近いパフォーマンス劣化を伴うベンチマークで一般化される。
論文 参考訳(メタデータ) (2026-03-21T23:24:12Z) - Semantic Invariance in Agentic AI [2.7821684674538347]
大規模言語モデルは、意思決定支援、科学的問題解決、マルチエージェント調整システムにおいて、自律的推論エージェントとしての役割をますます高めている。
LLMエージェントを連続的なアプリケーションにデプロイするには、それらの推論が意味論的に等価な入力変動の下で安定であることを保証する必要がある。
標準ベンチマーク評価は、固定された正準問題定式化の精度を評価するが、この重要な信頼性の次元を捉えることができない。
論文 参考訳(メタデータ) (2026-03-13T17:08:44Z) - $V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts [81.48669089692189]
一般値モデル(例えば$V_0.5$)は、コンテキスト内のモデル機能を明示的にエンコードすることで、事前訓練された値推定を実現する。
本稿では,このような値モデルにより予測されるベースラインと,スパースロールアウトから導出される経験的平均とを適応的に融合する$V_0.5$を提案する。
V_0.5$はGRPOとDAPOを大きく上回り、より高速な収束と約10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:41Z) - Beyond Accuracy: A Unified Random Matrix Theory Diagnostic Framework for Crash Classification Models [6.908972852063454]
ランダム行列理論(RMT)とヘビープレート自己正規化(HTSR)に基づく診断枠組みを導入する。
アイオワDOTの2つのクラッシュ分類タスク(173,512,371,062)において,9つのモデルファミリーを評価した。
正規化されたモデルは常に$[2, 4]$(平均2.87 pm 0.34$)内で$を出力します。
我々は、$$ベースの早期停止基準とスペクトルモデル選択プロトコルを提案し、両者が相互検証されたFに対して検証する。
論文 参考訳(メタデータ) (2026-02-23T05:42:54Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs [37.23311145049677]
本稿では,機能異方性(Capability Anisotropy)を診断するためのスケーラブルなシステムであるReLEを提案する。
我々は,207,843サンプルからなる領域$times$ Capability SymbolicMatrixの304モデルを評価した。
論文 参考訳(メタデータ) (2026-01-24T09:57:59Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Label Distributionally Robust Losses for Multi-class Classification:
Consistency, Robustness and Adaptivity [55.29408396918968]
多クラス分類のためのラベル分布ロバスト(LDR)損失という損失関数群について検討した。
我々の貢献は、多クラス分類のためのLDR損失のトップ$kの一貫性を確立することによって、一貫性と堅牢性の両方を含んでいる。
本稿では,各インスタンスのクラスラベルの雑音度に個別化温度パラメータを自動的に適応させる適応型LDR損失を提案する。
論文 参考訳(メタデータ) (2021-12-30T00:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。