論文の概要: Categorical Perception in Large Language Model Hidden States: Structural Warping at Digit-Count Boundaries
- arxiv url: http://arxiv.org/abs/2603.28258v1
- Date: Mon, 30 Mar 2026 10:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.341096
- Title: Categorical Perception in Large Language Model Hidden States: Structural Warping at Digit-Count Boundaries
- Title(参考訳): 大規模言語モデル隠れ状態におけるカテゴリー知覚:Digit-Count境界における構造ワープ
- Authors: Jon-Paul Cacioli,
- Abstract要約: カテゴリー的知覚(CP) - カテゴリー境界における識別性の向上 - は知覚心理学において最も研究されている現象の一つである。
本稿では,大言語モデル (LLM) のアラビア数字処理における隠れ状態表現において,類似の幾何学的ワープが生じることを報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Categorical perception (CP) -- enhanced discriminability at category boundaries -- is among the most studied phenomena in perceptual psychology. This paper reports that analogous geometric warping occurs in the hidden-state representations of large language models (LLMs) processing Arabic numerals. Using representational similarity analysis across six models from five architecture families, the study finds that a CP-additive model (log-distance plus a boundary boost) fits the representational geometry better than a purely continuous model at 100% of primary layers in every model tested. The effect is specific to structurally defined boundaries (digit-count transitions at 10 and 100), absent at non-boundary control positions, and absent in the temperature domain where linguistic categories (hot/cold) lack a tokenisation discontinuity. Two qualitatively distinct signatures emerge: "classic CP" (Gemma, Qwen), where models both categorise explicitly and show geometric warping, and "structural CP" (Llama, Mistral, Phi), where geometry warps at the boundary but models cannot report the category distinction. This dissociation is stable across boundaries and is a property of the architecture, not the stimulus. Structural input-format discontinuities are sufficient to produce categorical perception geometry in LLMs, independently of explicit semantic category knowledge.
- Abstract(参考訳): カテゴリー的知覚(CP) - カテゴリー境界における識別性の向上 - は知覚心理学において最も研究されている現象の一つである。
本稿では,大言語モデル (LLM) のアラビア数字処理における隠れ状態表現において,類似の幾何学的ワープが生じることを報告する。
5つのアーキテクチャファミリから得られた6つのモデルの表現的類似性解析を用いて、CP付加モデル(log-distance と boundary boost)が、テストされたすべてのモデルにおいて、100%のプライマリ層において純粋に連続するモデルよりも、表現幾何学に適合していることが判明した。
この効果は、構造的に定義された境界(デジタル数遷移は10と100)に特有であり、非境界制御位置に欠け、言語カテゴリー(ホット/コールド)がトークン化の不連続性を欠いている温度領域に存在しない。
古典的CP (Gemma, Qwen) と「構造的CP (Llama, Mistral, Phi) 」の2つの定性的に異なる記号が出現するが、モデルが分類を報告できない。
この解離は境界を越えて安定であり、刺激ではなくアーキテクチャの性質である。
構造的入力形式の不連続性は、明示的な意味圏の知識とは独立に、LLMにおける分類的知覚幾何学を生成するのに十分である。
関連論文リスト
- Bridging Structure and Appearance: Topological Features for Robust Self-Supervised Segmentation [8.584363058858935]
自己教師付きセマンティックセグメンテーション法は、外観の曖昧さに直面して失敗することが多い。
これは、影、光沢、局所的なテクスチャといった不安定で外観に基づく特徴に過度に依存しているためである、と我々は主張する。
安定な位相情報を活用することで外観と幾何学を橋渡しする新しいフレームワークである textbfGASeg を提案する。
論文 参考訳(メタデータ) (2025-12-30T05:34:28Z) - Optimizing against Infeasible Inclusions from Data for Semantic Segmentation through Morphology [58.17907376475596]
最先端セマンティックセグメンテーションモデルは通常、データ駆動方式で最適化される。
InSeInは、手元に設定されたセグメンテーショントレーニングから空間クラス関係を規定する明示的な包含制約を抽出する。
そして、予測可能性を促進するために、トレーニング中にこれらの制約の違反を罰する形態的だが差別的な損失を強制する。
論文 参考訳(メタデータ) (2024-08-26T22:39:08Z) - Zero-Shot 3D Shape Correspondence [67.18775201037732]
本稿では,3次元形状間の対応性を計算するためのゼロショット手法を提案する。
我々は、最近の基礎モデルの言語と視覚における例外的な推論能力を活用している。
提案手法は, 強い非等尺形状の間において, ゼロショット方式で高確率な結果をもたらす。
論文 参考訳(メタデータ) (2023-06-05T21:14:23Z) - A Layered Architecture for Universal Causality [4.119151469153588]
UCLA(Universal Causality Layered Architecture)と呼ばれる階層階層アーキテクチャを提案する。
最上位のレベルでは、因果介入は順序数の単純圏を用いてモデル化される。
第2層では、因果モデルはグラフ型カテゴリで定義される。
論文 参考訳(メタデータ) (2022-12-18T00:53:19Z) - Linear Connectivity Reveals Generalization Strategies [54.947772002394736]
微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。
テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。
我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
論文 参考訳(メタデータ) (2022-05-24T23:43:02Z) - Bipartite polygon models: entanglement classes and their nonlocal behaviour [0.0]
我々は、qubit状態空間を含む幅広い操作理論のクラスにおけるハーディの非局所的挙動について検討する。
この結果から, 明示的な操作モデルに関連付けられるような, ほとんど量子相関の探索されていないクラスが明らかになった。
論文 参考訳(メタデータ) (2022-05-11T11:34:10Z) - Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。
私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。
提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文 参考訳(メタデータ) (2021-04-16T06:41:20Z) - Causal Intervention for Weakly-Supervised Semantic Segmentation [122.1846968696862]
画像レベルのラベルのみを用いて、より優れたピクセルレベルの擬似マスクを生成することを目指している。
画像,コンテキスト,およびクラスラベル間の因果関係を分析するための構造因果モデルを提案する。
そこで本研究では,画像レベルの分類において,矛盾するバイアスを取り除くためのコンテキスト調整(CONTA)手法を提案する。
論文 参考訳(メタデータ) (2020-09-26T09:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。