論文の概要: Emergent Ordinal Geometry in Transformers Trained on Local Comparisons
- arxiv url: http://arxiv.org/abs/2606.01269v2
- Date: Tue, 02 Jun 2026 09:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.458858
- Title: Emergent Ordinal Geometry in Transformers Trained on Local Comparisons
- Title(参考訳): 局所比較による変圧器の創発的順序幾何学
- Authors: Nishit Singh,
- Abstract要約: 推移的推論は、A Cが隣接関係のみを知ること(A B, B C)を推測する挑戦である。
我々はトランスフォーマーが同じプリミティブを取得し、隠れた全順序から隣接した比較のみに基づいて小さなモデルを訓練するかどうかを問う。
分布外一般化は、目覚ましい幾何学的再編成とともに現れる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transitive inference is the challenge of inferring that A < C from knowing only adjacent relations (A < B, B < C). It is solved by humans and animals not through logical chaining but via an analogue mental number line, whose signature is the symbolic distance effect: distant comparisons are easier than nearby ones. We ask whether Transformers acquire the same primitive, training small models exclusively on adjacent comparisons from a hidden total order and evaluating generalization to unseen distant pairs. We find that out-of-distribution generalization emerges alongside a striking geometric reorganization: entity embeddings collapse onto a one-dimensional manifold whose principal axis recovers the hidden rank order with near-perfect fidelity, and this structure is sensitive to optimization in ways that produce grokking-like transient dynamics. Critically, even when accuracy is at ceiling, decision confidence and geometric separation both scale monotonically with rank distance, directly mirroring the symbolic distance effect observed across decades of behavioural experiments on humans, primates, and rodents. We further show the same rank-aligned geometry in a pretrained large language model, where it tracks the topology of each ordinal relation: linear for sizes and digits, cyclic for months. These results ground a 50-year-old behavioural regularity in the geometry of learned representations, offering a mechanistic account of transitive inference that bridges cognitive science and modern neural networks.
- Abstract(参考訳): 推移的推論は、A < C が隣り合う関係 (A < B, B < C) しか知らないことを推測する挑戦である。
これは人間や動物によって論理的連鎖ではなく、シンボリック距離効果を象徴する類似のメンタルナンバーラインによって解決される:遠距離比較は近くのものよりも容易である。
我々はトランスフォーマーが同じプリミティブを取得し、隠れた全順序から隣接した比較のみに小さなモデルを訓練し、見当たらない遠いペアへの一般化を評価するかどうかを問う。
実体埋め込みは主軸が隠れた階数秩序をほぼ完全な忠実度で回復する1次元多様体に崩壊し、この構造はグルーキングのような過渡的ダイナミクスを生み出す方法の最適化に敏感である。
重要なことに、精度が天井にある場合でも、決定の信頼性と幾何的分離はどちらもランク距離と単調にスケールし、人間、霊長類、およびげっ歯類の数十年にわたる行動実験で観察された象徴的な距離効果を直接反映している。
さらに、事前訓練された大言語モデルにおいて、各順序関係のトポロジ、すなわちサイズと桁を線形に追跡し、数ヶ月にわたって循環する、同じランク整列幾何を示す。
これらの結果は、学習した表現の幾何学における50年前の行動規則性の基礎となり、認知科学と現代のニューラルネットワークを橋渡しする推移的推論の力学的説明を提供する。
関連論文リスト
- Gauge Freedom and Metric Dependence in Neural Representation Spaces [0.0]
一般線型群の下でゲージ自由度を持つベクトル空間としてニューラル表現空間を研究する。
我々はコサイン類似度などのコサイン類似度が計量依存量となることを示す。
多層パーセプトロンと畳み込みネットワークの実験により、訓練されたモデルに可逆変換を挿入すると、コサイン類似性と最も近い隣り合う構造が実質的に歪むことが確認された。
論文 参考訳(メタデータ) (2026-03-06T17:54:22Z) - Structural Action Transformer for 3D Dexterous Manipulation [80.07649565189035]
クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。
既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。
本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
論文 参考訳(メタデータ) (2026-03-04T11:38:12Z) - On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation [51.56484100374058]
このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
論文 参考訳(メタデータ) (2026-02-24T22:55:21Z) - VIKING: Deep variational inference with stochastic projections [48.946143517489496]
変分平均場近似は、現代の過度にパラメータ化されたディープニューラルネットワークと競合する傾向がある。
パラメータ空間の2つの独立線型部分空間を考える単純な変分族を提案する。
これにより、オーバーパラメトリゼーションを反映した、完全に相関した近似後部を構築することができる。
論文 参考訳(メタデータ) (2025-10-27T15:38:35Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts [1.9458156037869137]
収束学習は、神経システムが同様の内部表現に到達する度合いである。
数十の視覚モデルと数千の層対比較にまたがる収束学習の大規模監査を行う。
発見は、表現の収束に対する理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-26T00:04:24Z) - Mapping the Edge of Chaos: Fractal-Like Boundaries in The Trainability of Decoder-Only Transformer Models [0.0]
ミニチュアニューラルネットワークによる最近の証拠は、これらの結果を分離する境界がフラクタル特性を示すことを示唆している。
本研究は、より一貫した収束尺度を用いて、中規模デコーダのみの変圧器アーキテクチャに拡張する。
その結果、訓練性フロンティアは単純なしきい値ではなく、複数のスケールで自己相似で一見ランダムな構造を形成することがわかった。
論文 参考訳(メタデータ) (2025-01-08T05:24:11Z) - Relative Representations: Topological and Geometric Perspectives [50.85040046976025]
相対表現はゼロショットモデルの縫合に対する確立されたアプローチである。
相対変換において正規化手順を導入し、非等方的再スケーリングや置換に不変となる。
第二に、クラス内のクラスタリングを促進するトポロジカル正規化損失である、微調整された相対表現におけるトポロジカルデシフィケーションの展開を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:09:22Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Representational dissimilarity metric spaces for stochastic neural
networks [4.229248343585332]
神経表現の類似性を定量化することは、深層学習と神経科学研究における長年の問題である。
形状メトリクスを一般化して表現の違いを定量化する。
神経生物学的指向型視覚格子と自然主義的なシーンはそれぞれ、訓練されていない深層ネットワーク表現と訓練された深部ネットワーク表現に類似している。
論文 参考訳(メタデータ) (2022-11-21T17:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。