論文の概要: Information Structure in Mappings: An Approach to Learning, Representation, and Generalisation
- arxiv url: http://arxiv.org/abs/2505.23960v1
- Date: Thu, 29 May 2025 19:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.639692
- Title: Information Structure in Mappings: An Approach to Learning, Representation, and Generalisation
- Title(参考訳): マッピングにおける情報構造:学習・表現・一般化へのアプローチ
- Authors: Henry Conklin,
- Abstract要約: この論文では、空間間の写像における体系的構造を特定するための定量的手法を紹介している。
マッピングに存在する構造的プリミティブと、それぞれの情報理論を識別します。
また、ベクトル空間のエントロピーを推定する新しい高性能なアプローチを導入し、この分析を100万から1200億のパラメータのモデルに適用する。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable success of large large-scale neural networks, we still lack unified notation for thinking about and describing their representational spaces. We lack methods to reliably describe how their representations are structured, how that structure emerges over training, and what kinds of structures are desirable. This thesis introduces quantitative methods for identifying systematic structure in a mapping between spaces, and leverages them to understand how deep-learning models learn to represent information, what representational structures drive generalisation, and how design decisions condition the structures that emerge. To do this I identify structural primitives present in a mapping, along with information theoretic quantifications of each. These allow us to analyse learning, structure, and generalisation across multi-agent reinforcement learning models, sequence-to-sequence models trained on a single task, and Large Language Models. I also introduce a novel, performant, approach to estimating the entropy of vector space, that allows this analysis to be applied to models ranging in size from 1 million to 12 billion parameters. The experiments here work to shed light on how large-scale distributed models of cognition learn, while allowing us to draw parallels between those systems and their human analogs. They show how the structures of language and the constraints that give rise to them in many ways parallel the kinds of structures that drive performance of contemporary neural networks.
- Abstract(参考訳): 大規模なニューラルネットワークの成功にもかかわらず、これらの表現空間を考えたり記述したりするための統一的な表記法はいまだに欠けている。
私たちは、それらの表現がどのように構造化されているか、その構造がトレーニング中にどのように現われるのか、どのような構造が望ましいのかを確実に記述する手法を欠いています。
この論文では、空間間のマッピングにおける体系的構造を特定するための定量的手法を導入し、深層学習モデルがどのように情報を表現するか、表現構造が一般化を促進するのか、そして設計決定がどのようにその構造を現わすかを理解するためにそれらを活用する。
これを行うために、マッピングに存在する構造的プリミティブと、それぞれの情報理論的定量化を識別する。
これにより、マルチエージェント強化学習モデル、単一タスクで訓練されたシーケンス・ツー・シーケンスモデル、大規模言語モデル間の学習、構造、一般化を分析することができる。
また、ベクトル空間のエントロピーを推定する新しい高性能なアプローチを導入し、この分析を100万から1200億のパラメータのモデルに適用する。
ここでの実験は、大規模に分散した認知モデルがどのように学習するかを明らかにし、これらのシステムと人間のアナログを並列に描画することを可能にする。
それらは、言語の構造と、それらを引き起こす制約が、現代のニューラルネットワークのパフォーマンスを駆動する構造の種類と、多くの点で平行していることを示している。
関連論文リスト
- Broad Spectrum Structure Discovery in Large-Scale Higher-Order Networks [1.7273380623090848]
本稿では,大規模ハイパーグラフにおいて,メソスケールの広いスペクトルを効率的に表現し,発見する確率モデルについて紹介する。
低ランク表現を用いたクラス間の潜時相互作用による観測ノードの相互作用をモデル化することにより、我々はリッチな構造パターンを抽出する。
提案モデルは,最先端手法によるリンク予測を改善し,多様な実世界のシステムにおける解釈可能な構造を発見する。
論文 参考訳(メタデータ) (2025-05-27T20:34:58Z) - Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。
局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。
この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文 参考訳(メタデータ) (2025-05-11T17:44:14Z) - On the Role of Information Structure in Reinforcement Learning for Partially-Observable Sequential Teams and Games [55.2480439325792]
逐次的意思決定問題において、情報構造とは、異なる時点に発生するシステム内の事象が相互にどのように影響するかを記述するものである。
対照的に、現実のシーケンシャルな意思決定問題は通常、システム変数の複雑で時間的な相互依存を伴う。
情報構造を明示する新しい強化学習モデルを定式化する。
論文 参考訳(メタデータ) (2024-03-01T21:28:19Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Discrete Latent Structure in Neural Networks [32.41642110537956]
このテキストは、離散的な潜在構造を持つ学習のための3つの広義の戦略を探求する。
たいていは、同じ基本ブロックの小さなセットで構成されているが、それらが異なる使い方をしており、適用性や特性が著しく異なることを示している。
論文 参考訳(メタデータ) (2023-01-18T12:30:44Z) - Learning Probabilistic Structural Representation for Biomedical Image
Segmentation [37.07198480786721]
構造表現を学習する最初の深層学習法を提案する。
我々は、この手法の強み、すなわち位相的整合性の良いピクセルマップよりも真の構造を生成することを実証的に示す。
論文 参考訳(メタデータ) (2022-06-03T06:00:26Z) - Modelling Compositionality and Structure Dependence in Natural Language [0.12183405753834563]
言語学と集合論に基づいて、これらの概念の形式化がこの論文の前半で述べられている。
言語処理を行う認知システムは,特定の機能的制約を持つ必要がある。
単語埋め込み技術の進歩を利用して、関係学習のモデルがシミュレートされる。
論文 参考訳(メタデータ) (2020-11-22T17:28:50Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。