論文の概要: Deep sequence models tend to memorize geometrically; it is unclear why
- arxiv url: http://arxiv.org/abs/2510.26745v1
- Date: Thu, 30 Oct 2025 17:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.945913
- Title: Deep sequence models tend to memorize geometrically; it is unclear why
- Title(参考訳): 深部配列モデルは幾何学的に記憶される傾向があるが、なぜなのかは定かではない
- Authors: Shahriar Noroozizadeh, Vaishnavh Nagarajan, Elan Rosenfeld, Sanjiv Kumar,
- Abstract要約: このような幾何学の台頭は、単なる局所的な関係を最適化するにも拘わらず、典型的な建築的あるいは最適化的な圧力による直接の帰結はあり得ない、と我々は論じる。
我々は、この幾何学が(一般的な理論とは対照的に)様々な圧力の欠如にもかかわらず自然に現れるスペクトルバイアスに由来することを実証する。
- 参考スコア(独自算出の注目度): 42.53849315139079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In sequence modeling, the parametric memory of atomic facts has been predominantly abstracted as a brute-force lookup of co-occurrences between entities. We contrast this associative view against a geometric view of how memory is stored. We begin by isolating a clean and analyzable instance of Transformer reasoning that is incompatible with memory as strictly a storage of the local co-occurrences specified during training. Instead, the model must have somehow synthesized its own geometry of atomic facts, encoding global relationships between all entities, including non-co-occurring ones. This in turn has simplified a hard reasoning task involving an $\ell$-fold composition into an easy-to-learn 1-step geometric task. From this phenomenon, we extract fundamental aspects of neural embedding geometries that are hard to explain. We argue that the rise of such a geometry, despite optimizing over mere local associations, cannot be straightforwardly attributed to typical architectural or optimizational pressures. Counterintuitively, an elegant geometry is learned even when it is not more succinct than a brute-force lookup of associations. Then, by analyzing a connection to Node2Vec, we demonstrate how the geometry stems from a spectral bias that -- in contrast to prevailing theories -- indeed arises naturally despite the lack of various pressures. This analysis also points to practitioners a visible headroom to make Transformer memory more strongly geometric. We hope the geometric view of parametric memory encourages revisiting the default intuitions that guide researchers in areas like knowledge acquisition, capacity, discovery and unlearning.
- Abstract(参考訳): シーケンスモデリングにおいて、原子事実のパラメトリック記憶は、エンティティ間の共起のブルートフォースルックアップとして主に抽象化されている。
我々は、この連想的ビューと、メモリの保存方法の幾何学的ビューとを対比する。
まず、トレーニング中に指定されたローカル共起のストレージとして、メモリと互換性のないトランスフォーマー推論のクリーンで分析可能なインスタンスを分離することから始めます。
その代わり、モデルは何らかの形で原子事実の幾何学を合成し、非共起物質を含む全ての実体間のグローバルな関係を符号化したに違いない。
これにより、$$\ell$-foldコンポジションを含むハード推論タスクを、簡単に学習できる1ステップの幾何学的タスクに単純化した。
この現象から、我々は説明が難しい神経埋め込み幾何学の基本的側面を抽出する。
このような幾何学の台頭は、単なる局所的な関係を最適化するにも拘わらず、典型的な建築的あるいは最適化的な圧力による直接の帰結はあり得ない、と我々は論じる。
反対に、エレガントな幾何学は、関連性のブルートフォースルックアップよりも簡潔でない場合でも学習される。
すると、Node2Vecとの接続を分析することで、幾何が(一般的な理論とは対照的に)スペクトルバイアスに由来するかを示します。
この分析は、Transformerメモリをより強く幾何学的にするために、実践者が目に見えるヘッドルームを提示する。
パラメトリックメモリの幾何学的視点は、知識獲得、能力獲得、発見、未学習といった分野の研究者を導くデフォルトの直観を再考することを願っている。
関連論文リスト
- Deep Learning as the Disciplined Construction of Tame Objects [0.9786690381850356]
ディープラーニングは、いわゆるテーム幾何学の中の関数の合成であると見なすことができる。
本稿では,tameインターフェース理論(o-minimalityとも呼ばれる)とディープラーニング理論の概要について述べる。
論文 参考訳(メタデータ) (2025-09-22T17:00:40Z) - Fully Geometric Multi-Hop Reasoning on Knowledge Graphs with Transitive Relations [50.05281461410368]
マルチホップ推論のための幾何学的埋め込み手法GeometrEを紹介する。
論理演算を学習する必要はなく、完全に幾何学的解釈可能である。
実験の結果,GeometrEは標準ベンチマークデータセットの最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-05-18T11:17:50Z) - From Dionysius Emerges Apollo -- Learning Patterns and Abstractions from Perceptual Sequences [1.3597551064547502]
感覚ストリームは単純化され、1次元のシーケンスである。
このようなシーケンスを学習する際には、自然にそれらを部品(チャンキングと呼ばれるプロセス)に分割します。
私はチャンクを学習し、シーケンスをチャンクごとに解析するモデルを開発しました。
論文 参考訳(メタデータ) (2025-03-14T00:37:28Z) - Unraveling the geometry of visual relational reasoning [11.82509693248749]
人間は「一貫性」を形や色で認識するなど抽象的な関係を簡単に一般化する一方、ニューラルネットワークは柔軟性のある推論を制限するのに苦労する。
本稿では,抽象的関係推論を体系的に評価する新しいベンチマークであるSimplifiedRPMを紹介する。
また、関係性の難易度を定量化するための人間実験を行い、モデルと人間の直接比較を可能にした。
我々の結果は、AIにおけるより人間的な視覚的推論の道を開くことで、関係推論のための幾何学的基盤を確立します。
論文 参考訳(メタデータ) (2025-02-24T18:07:54Z) - Slow Perception: Let's Perceive Geometric Figures Step-by-step [53.69067976062474]
私たちは、正確なコピー(強い知覚)が視覚的なo1への第一歩だと信じています。
本稿では,モデルが基本点-線の組み合わせを徐々に知覚するように導く「スロー知覚(SP)」の概念を紹介する。
論文 参考訳(メタデータ) (2024-12-30T00:40:35Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - Exploring Data Geometry for Continual Learning [64.4358878435983]
非定常データストリームのデータ幾何を探索することにより,新しい視点から連続学習を研究する。
提案手法は,新しいデータによって引き起こされる幾何構造に対応するために,基底空間の幾何学を動的に拡張する。
実験により,本手法はユークリッド空間で設計したベースライン法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2023-04-08T06:35:25Z) - Geometric Algebra Attention Networks for Small Point Clouds [0.0]
物理科学における問題は、2次元または3次元空間における比較的小さな点集合を扱う。
これらの小点雲上での深層学習のための回転・置換同変アーキテクチャを提案する。
物理, 化学, 生物学に関連するサンプル問題を, モデルを用いて解くことにより, これらのアーキテクチャの有用性を実証する。
論文 参考訳(メタデータ) (2021-10-05T22:52:12Z) - On the geometry of generalization and memorization in deep neural
networks [15.250162344382051]
本研究では,深層ネットワークにおいて,いつ,どこで暗記が起こるかという構造について検討する。
すべてのレイヤは、機能を共有する例から優先的に学び、この振る舞いを一般化のパフォーマンスにリンクする。
我々は,物体の半径と寸法を減少させるため,より深い層に暗記が顕著に起こることを見出した。
論文 参考訳(メタデータ) (2021-05-30T19:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。