論文の概要: Learning Dynamics of Deep Learning -- Force Analysis of Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2509.19554v1
- Date: Tue, 23 Sep 2025 20:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.595106
- Title: Learning Dynamics of Deep Learning -- Force Analysis of Deep Neural Networks
- Title(参考訳): ディープラーニングの学習ダイナミクス -ディープニューラルネットワークの力解析-
- Authors: Yi Ren,
- Abstract要約: この論文は、力分析にインスパイアされたアイデアを使用して、ディープラーニングモデルが時間の経過とともにどのように学習するかを探求する。
モデルのトレーニング手順を拡大して、学習中にあるトレーニング例が他のトレーニングにどのように影響するかを確認します。
このフレームワークは、異なる実システムにおけるモデルの幅広い振る舞いを理解するのに役立ちます。
- 参考スコア(独自算出の注目度): 9.0025190634417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis explores how deep learning models learn over time, using ideas inspired by force analysis. Specifically, we zoom in on the model's training procedure to see how one training example affects another during learning, like analyzing how forces move objects. We break this influence into two parts: how similar the two examples are, and how strong the updating force is. This framework helps us understand a wide range of the model's behaviors in different real systems. For example, it explains why certain examples have non-trivial learning paths, why (and why not) some LLM finetuning methods work, and why simpler, more structured patterns tend to be learned more easily. We apply this approach to various learning tasks and uncover new strategies for improving model training. While the method is still developing, it offers a new way to interpret models' behaviors systematically.
- Abstract(参考訳): この論文は、力分析にインスパイアされたアイデアを使用して、ディープラーニングモデルが時間の経過とともにどのように学習するかを探求する。
具体的には、モデルのトレーニング手順を拡大して、あるトレーニング例が学習中に他のトレーニング例にどのように影響するかを確認します。
この影響は,2つの例がどの程度似ているか,更新力がどれほど強いかという,2つの部分に分かれています。
このフレームワークは、異なる実システムにおけるモデルの幅広い振る舞いを理解するのに役立ちます。
例えば、あるサンプルが非自明な学習パスを持つ理由、LLMの微調整メソッドがなぜ機能するのか(そしてなぜそうでないのか)、そしてなぜより単純でより構造化されたパターンがより簡単に学習されるのかを説明する。
このアプローチを様々な学習タスクに適用し、モデルトレーニングを改善するための新しい戦略を明らかにする。
この手法はまだ開発中だが、モデルの振る舞いを体系的に解釈する新しい方法を提供する。
関連論文リスト
- How to Probe: Simple Yet Effective Techniques for Improving Post-hoc Explanations [69.72654127617058]
ポストホック重要属性法は、ディープニューラルネットワーク(DNN)を"説明"するための一般的なツールである
この研究において、我々はこの概念に挑戦する経験的証拠を提示する。
トレーニング済みモデルの分類レイヤのトレーニング詳細が重要な役割を果たすことを示す。
論文 参考訳(メタデータ) (2025-03-01T22:25:11Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - How Do Training Methods Influence the Utilization of Vision Models? [23.41975772383921]
すべての学習可能なパラメータが、ニューラルネットワークの決定関数に等しく寄与するわけではない。
アーキテクチャとタスクの複雑さがこの現象にどのように影響するかを調べる以前の研究を再考する。
本研究により, 学習手法は, 与えられた課題に対する決定関数にどの層が重要になるかに強く影響を与えることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-18T13:54:46Z) - Learning Dynamics of LLM Finetuning [20.720113883193765]
各種ファインタニングにおける大規模言語モデルの学習力学について検討する。
我々のフレームワークは、命令チューニングと選好チューニングの両方のための一般的なアルゴリズムのトレーニングに関する多くの興味深い観察を均一に解釈することができる。
論文 参考訳(メタデータ) (2024-07-15T07:30:28Z) - Meet You Halfway: Explaining Deep Learning Mysteries [0.0]
本稿では,ネットワークの振舞いに光を当てることを目的とした,形式的な記述を伴う新しい概念的枠組みを提案する。
なぜニューラルネットワークは一般化能力を獲得するのか?
我々は、この新しいフレームワークと基礎となる理論をサポートする包括的な実験セットを提供する。
論文 参考訳(メタデータ) (2022-06-09T12:43:10Z) - Learning to Scaffold: Optimizing Model Explanations for Teaching [74.25464914078826]
我々は3つの自然言語処理とコンピュータビジョンタスクのモデルを訓練する。
筆者らは,本フレームワークで抽出した説明文を学習した学生が,従来の手法よりもはるかに効果的に教師をシミュレートできることを発見した。
論文 参考訳(メタデータ) (2022-04-22T16:43:39Z) - Training Dynamics for Text Summarization Models [45.62439188988816]
我々は、ニュース要約に着目して、世代モデルのトレーニングダイナミクスを分析する。
異なるデータセット (CNN/DM, XSum, MediaSum) と要約特性を用いて, モデルが微調整プロセスの異なる段階で何を学習するかを検討する。
コピー動作などの特性は、トレーニングプロセスの早い段階で学習され、これらの観察はドメイン間で堅牢であることがわかった。
一方, 隠蔽事実の幻覚などの事実誤りは後期に学習され, この行動は領域によって多様である。
論文 参考訳(メタデータ) (2021-10-15T21:13:41Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z) - Unraveling Meta-Learning: Understanding Feature Representations for
Few-Shot Tasks [55.66438591090072]
メタラーニングの基礎となる力学と、メタラーニングを用いて訓練されたモデルと古典的に訓練されたモデルの違いをよりよく理解する。
数ショット分類のための標準訓練ルーチンの性能を高める正則化器を開発した。
論文 参考訳(メタデータ) (2020-02-17T03:18:45Z) - Revisiting Meta-Learning as Supervised Learning [69.2067288158133]
メタラーニングと従来の教師付き学習の関連性を再考し,強化することで,原則的,統一的なフレームワークの提供を目指す。
タスク固有のデータセットとターゲットモデルを(機能、ラベル)サンプルとして扱うことで、多くのメタ学習アルゴリズムを教師付き学習のインスタンスに還元することができる。
この視点は、メタラーニングを直感的で実践的なフレームワークに統一するだけでなく、教師付き学習から直接洞察を伝達してメタラーニングを改善することができる。
論文 参考訳(メタデータ) (2020-02-03T06:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。