論文の概要: All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs
- arxiv url: http://arxiv.org/abs/2605.12671v1
- Date: Tue, 12 May 2026 19:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.638656
- Title: All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs
- Title(参考訳): 全回路がローマへ:LLMの回路とシーフ発見における機能異方性の再考
- Authors: Xi Chen, Mingyu Jin, Jingcheng Niu, Yutong Yin, Jinman Zhao, Bangwei Guo, Dimitris N. Metaxas, Zhaoran Wang, Yutao Yue, Gerald Penn,
- Abstract要約: 一つのタスクを複数の、構造的に異なる回路やシーブでサポートできることを示し、同時に忠実で、疎結合で、完全であることを示す。
分布回路仮説を提案し,高次元重ね合わせから自然に非一様で低オーバーラップ回路の説明が生じることを示す理論的解析を行った。
- 参考スコア(独自算出の注目度): 61.02007370456733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present empirical and theoretical evidence against a central but largely implicit assumption in circuit and sheaf discovery (CSD), which we term the Functional Anisotropy Hypothesis: the idea that functions in large language models (LLMs) are localised to a unique or near-unique internal mechanism. We show that a single LLM task can instead be supported by multiple, structurally distinct circuits or sheaves that are simultaneously faithful, sparse, and complete. To systematically uncover such competing mechanisms, we introduce Overlap-Aware Sheaf Repulsion, a method that augments the CSD objective with an explicit penalty on structural overlap across multiple discovery runs, enabling the discovery of circuits or sheaves with strong task performance but minimal shared structure across a plethora of common CSD benchmarks. We find that this phenomenon becomes increasingly pronounced as the number of discovered sheaves grows and persists robustly across major CSD methods. We further identify an ultra-sparse three-edge sheaf and show that none of its edges is individually indispensable, undermining even weakened notions of canonical or essential components. To explain these findings, we propose a Distributive Dense Circuit Hypothesis and provide a theoretical analysis demonstrating that non-unique, low-overlap circuit explanations arise naturally from high-dimensional superposition under mild assumptions. Together, our results suggest that mechanistic explanations in LLMs are inherently non-canonical and call for a rethinking of how CSD results should be interpreted and evaluated.
- Abstract(参考訳): 本稿では,大言語モデル (LLMs) における関数が一意的あるいは一意的な内部機構に局所化されるという,機能的異方性仮説 (Functional Anisotropy hypothesis) と呼ばれる回路とシーフの発見において,中心的だがほとんど暗黙的な仮定(CSD)に対する実証的および理論的証拠を示す。
1つのLCMタスクは、同時に忠実でスパースで完全である複数の、構造的に異なる回路またはシーブによってサポート可能であることを示す。
このような競合するメカニズムを体系的に解明するために,複数の発見実行における構造的重複に対する明示的なペナルティでCSD目標を増大させる手法であるOverlap-Aware Sheaf Repulsionを導入する。
この現象は、発見されたシーブの数が増加し、主要なCDD法で頑健に持続するにつれて、ますます顕著になる。
さらに、超スパースな三辺層を同定し、その縁のどの部分も個々に欠かせないことを示し、正準成分や本質成分の弱い概念を損なう。
これらの知見を説明するために, 分布密度回路仮説を提案し, 軽微な仮定下での高次元重ね合わせから, 非一様で低オーバーラップ回路の説明が自然に発生することを示す理論的解析を行った。
この結果から, LLMの力学的説明は本質的に非標準的であり, CSD結果の解釈と評価の方法の再考を求めることが示唆された。
関連論文リスト
- PLUME: Latent Reasoning Based Universal Multimodal Embedding [52.35354073629127]
ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-02T14:04:53Z) - The Observer-Situation Lattice: A Unified Formal Basis for Perspective-Aware Cognition [2.28438857884398]
我々は、視点認識のための単一のコヒーレントなセマンティック空間を提供する統一数学的構造であるObserver-Situation Lattice(OSL)を紹介する。
OSL は有限完全格子であり、各要素はユニークなオブザーバ-選択対を表し、信念管理に対する原則的かつスケーラブルなアプローチを可能にする。
我々は,この格子上で動作する2つの重要なアルゴリズムを提案する: (i)相対的信念伝播, 新たな情報を効率的に伝播する漸進的更新アルゴリズム, (ii) 矛盾成分を識別・分離するグラフベースの最小コントラディション分解。
論文 参考訳(メタデータ) (2026-03-02T03:15:36Z) - Provable Low-Frequency Bias of In-Context Learning of Representations [19.066378730056275]
In-context Learning (ICL) は、大きな言語モデル(LLM)がパラメータを更新せずに入力シーケンスから新しい振る舞いを取得することを可能にする。
近年の研究では、ICLはプロンプトのデータ生成過程(DGP)の構造を内部化することにより、事前学習の段階で学んだ本来の意味を超えることができることが示されている。
本稿では、二重収束の統一的な枠組みを導入することにより、このような現象を初めて厳密に説明する。
この二重収束過程は、スムーズな(低周波)表現に対する暗黙のバイアスをもたらし、解析的に証明し、経験的に検証する。
論文 参考訳(メタデータ) (2025-07-17T21:19:32Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - The Unified Cognitive Consciousness Theory for Language Models: Anchoring Semantics, Thresholds of Activation, and Emergent Reasoning [2.0800882594868293]
統一認知意識理論(UCCT)は、これらを巨大な無意識パターンリポジトリとみなしている。
UCCTはこの過程を、事前学習で学んだ統計的事前学習と文脈駆動のターゲットパターンの間のベイズ的競争として定式化している。
我々はこの理論を、しきい値交差、モダリティ、密度距離予測力の3つの原理で基礎づける。
論文 参考訳(メタデータ) (2025-06-02T18:12:43Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Discovering Latent Causal Variables via Mechanism Sparsity: A New
Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。
潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文 参考訳(メタデータ) (2021-07-21T14:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。