論文の概要: Understanding Learning Dynamics Through Structured Representations
- arxiv url: http://arxiv.org/abs/2508.02126v1
- Date: Mon, 04 Aug 2025 07:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.217206
- Title: Understanding Learning Dynamics Through Structured Representations
- Title(参考訳): 構造化表現による学習ダイナミクスの理解
- Authors: Saleh Nikooroo, Thomas Engel,
- Abstract要約: 本稿では,内部構造的選択が学習システムの振舞いをいかに形作るかを検討する。
これらの構造が勾配流、スペクトル感度、固定点挙動にどのように影響するかを分析する。
固定テンプレートを規定するのではなく、解釈可能な方法で学習行動を操ることのできるトラクタブルデザインの原則を強調します。
- 参考スコア(独自算出の注目度): 1.2064681974642195
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While modern deep networks have demonstrated remarkable versatility, their training dynamics remain poorly understood--often driven more by empirical tweaks than architectural insight. This paper investigates how internal structural choices shape the behavior of learning systems. Building on prior efforts that introduced simple architectural constraints, we explore the broader implications of structure for convergence, generalization, and adaptation. Our approach centers on a family of enriched transformation layers that incorporate constrained pathways and adaptive corrections. We analyze how these structures influence gradient flow, spectral sensitivity, and fixed-point behavior--uncovering mechanisms that contribute to training stability and representational regularity. Theoretical analysis is paired with empirical studies on synthetic and structured tasks, demonstrating improved robustness, smoother optimization, and scalable depth behavior. Rather than prescribing fixed templates, we emphasize principles of tractable design that can steer learning behavior in interpretable ways. Our findings support a growing view that architectural design is not merely a matter of performance tuning, but a critical axis for shaping learning dynamics in scalable and trustworthy neural systems.
- Abstract(参考訳): 現代のディープネットワークは目覚ましい汎用性を示しているが、トレーニングのダイナミクスは理解されていないままであり、しばしばアーキテクチャの洞察よりも経験的な微調整によって駆動される。
本稿では,内部構造的選択が学習システムの振舞いをいかに形作るかを検討する。
単純なアーキテクチャ制約を導入した事前の取り組みに基づいて、コンバージェンス、一般化、適応のための構造の影響を幅広く検討する。
我々のアプローチは、制約された経路と適応的な補正を組み込んだ、豊富な変換層群を中心にしている。
これらの構造が勾配流、スペクトル感度、固定点挙動にどのように影響するかを解析し、トレーニングの安定性と表現規則性に寄与するメカニズムを明らかにする。
理論的分析は、より堅牢性、よりスムーズな最適化、スケーラブルな深さ挙動を実証し、合成および構造化されたタスクに関する経験的研究と組み合わせられる。
固定テンプレートを規定するのではなく、解釈可能な方法で学習行動を操ることのできるトラクタブルデザインの原則を強調します。
私たちの発見は、アーキテクチャ設計は単にパフォーマンスチューニングの問題ではなく、スケーラブルで信頼性の高いニューラルネットワークにおける学習ダイナミクスを形成するための重要な軸である、という成長する見方を支持します。
関連論文リスト
- Cross-Model Semantics in Representation Learning [1.2064681974642195]
構造的正則性は、構造的変動の下でより安定な表現幾何学を誘導することを示す。
これは、ある種の帰納バイアスがモデル内の一般化をサポートするだけでなく、モデル間の学習された機能の相互運用性を向上させることを示唆している。
論文 参考訳(メタデータ) (2025-08-05T16:57:24Z) - Structured Transformations for Stable and Interpretable Neural Computation [1.2064681974642195]
我々は、標準の非拘束アフィンパラダイムから逸脱する層レベルの変換の再構成を導入する。
我々の定式化は内部の整合性を促進し、奥行きの安定した情報フローをサポートする。
これらの構造変換を用いて構築されたモデルは、勾配条件の改善、摂動に対する感度の低減、層幅の堅牢性を示す。
論文 参考訳(メタデータ) (2025-07-31T19:26:45Z) - Toward Explainable Offline RL: Analyzing Representations in Intrinsically Motivated Decision Transformers [0.0]
弾性決定変換器(EDT)は特にオフラインの強化学習で成功している。
近年の研究では、本質的なモチベーション機構をEMTに組み込むことで、探索作業における性能を向上させることが示されている。
本稿では,EDTの内在的モチベーションがEDTへの埋め込みをいかに学習したかを分析するための,系統的なポストホック説明可能性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:01:24Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - An Overview of Low-Rank Structures in the Training and Adaptation of Large Models [52.67110072923365]
近年の研究では、低ランク構造の出現というディープネットワークの広範な現象が明らかになった。
これらの暗黙の低次元パターンは、トレーニングの効率と微調整された大規模モデルを改善するための貴重な洞察を提供する。
深層学習のための低ランク構造の利用の進歩を概観し,その数学的基礎に光を当てる。
論文 参考訳(メタデータ) (2025-03-25T17:26:09Z) - Network Dynamics-Based Framework for Understanding Deep Neural Networks [11.44947569206928]
本稿では,動的システム理論のレンズを通して学習力学を解析するための理論的枠組みを提案する。
ニューラルネットワークの線形性と非線形性の概念をニューロンレベルで2つの基本変換単位を導入することにより再定義する。
異なる変換モードは、重みベクトルの組織、異なる情報抽出のモード、質的に異なる学習フェーズの出現において、異なる集団的挙動をもたらす。
論文 参考訳(メタデータ) (2025-01-05T04:23:21Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。
物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。
本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文 参考訳(メタデータ) (2023-04-25T15:53:45Z) - The Neural Race Reduction: Dynamics of Abstraction in Gated Networks [12.130628846129973]
本稿では,情報フローの経路が学習力学に与える影響をスキーマ化するGated Deep Linear Networkフレームワークを紹介する。
正確な還元と、特定の場合において、学習のダイナミクスに対する正確な解が導出されます。
我々の研究は、ニューラルネットワークと学習に関する一般的な仮説を生み出し、より複雑なアーキテクチャの設計を理解するための数学的アプローチを提供する。
論文 参考訳(メタデータ) (2022-07-21T12:01:03Z) - Recent advances in deep learning theory [104.01582662336256]
本稿では,近年のディープラーニング理論の進歩をレビューし,整理する。
文献は,(1)深層学習の一般化可能性を分析する複雑性とキャパシティに基づくアプローチ,(2)勾配降下とその変種をモデル化するための微分方程式とその力学系,(3)動的システムの軌道を駆動する損失景観の幾何学的構造,(5)ネットワークアーキテクチャにおけるいくつかの特別な構造の理論的基礎,の6つのグループに分類される。
論文 参考訳(メタデータ) (2020-12-20T14:16:41Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。