論文の概要: Deciphering Shortcut Learning from an Evolutionary Game Theory Perspective
- arxiv url: http://arxiv.org/abs/2605.02658v1
- Date: Mon, 04 May 2026 14:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.341278
- Title: Deciphering Shortcut Learning from an Evolutionary Game Theory Perspective
- Title(参考訳): 進化ゲーム理論から見たショートカット学習の解読
- Authors: Xiayang Li, Kuo Gai, Shihua Zhang,
- Abstract要約: ショートカット学習は、深層学習モデルがデータ内の非重要機能に依存する原因となる。
本稿では,コアとグラデーションを形式的に定義し,進化ゲーム理論を用いてショートカットバイアスの起源を解析する。
- 参考スコア(独自算出の注目度): 18.72807692009739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shortcut learning causes deep learning models to rely on non-essential features within the data. However, its formation in deep neural network training still lacks theoretical understanding. In this paper, we provide a formal definition of core and shortcut features and employ evolutionary game theory to analyze the origins of shortcut bias by modeling data samples as players and their corresponding neural tangent features as strategies, assuming the existence of core and shortcut subnetworks. We find that gradient descent (GD) and stochastic gradient descent (SGD) lead to two distinct stochastically stable states, each corresponding to a different strategy. The former primarily optimizes the shortcut subnetwork, while the latter primarily optimizes the core subnetwork. We investigate the influence of these strategies on shortcut bias through a continuous stochastic differential equation, and reveal the impact of data noise and optimization noise on the formation of shortcut bias. In brief, our work employs evolutionary game theory to characterize the dynamics of shortcut bias formation and provides a theoretical view on its mitigation.
- Abstract(参考訳): ショートカット学習は、深層学習モデルがデータ内の非重要機能に依存する原因となる。
しかし、深層ニューラルネットワークトレーニングにおけるその形成は、理論的な理解を欠いている。
本稿では,コアとショートカットの特徴を形式的に定義し,コアとショートカットのサブネットワークの存在を前提として,データサンプルをプレイヤーとしてモデル化し,それに対応するニューラルタンジェント特徴を戦略として,ショートカットバイアスの起源を解析するために進化ゲーム理論を用いる。
勾配降下 (GD) と確率勾配降下 (SGD) は, それぞれ異なる戦略に対応する2つの異なる確率的安定状態をもたらすことがわかった。
前者はショートカットサブネットワークを、後者はコアサブネットワークを最適化する。
連続確率微分方程式によるショートカットバイアスに対するこれらの戦略の影響について検討し,データノイズと最適化ノイズがショートカットバイアスの形成に与える影響を明らかにする。
簡単に言えば、我々の研究は進化ゲーム理論を用いて、ショートカットバイアスの形成のダイナミクスを特徴づけ、その緩和に関する理論的見解を提供する。
関連論文リスト
- Cognitive Maps in Language Models: A Mechanistic Analysis of Spatial Planning [2.1115884707107715]
我々はグリッド環境における3つの空間学習パラダイムに基づいてGPT-2モデルを訓練する。
行動、表現、機械的分析を用いて、2つの基本的な異なる学習アルゴリズムを明らかにする。
論文 参考訳(メタデータ) (2025-11-17T13:46:19Z) - On Measuring Localization of Shortcuts in Deep Networks [10.928881579403907]
ショートカットはトレーニング中にうまく機能するが、一般化に失敗する刺激的なルールであり、ディープネットワークの信頼性に対する大きな課題である。
我々は,VGG,ResNet,DeiT,ConvNeXtアーキテクチャにまたがるCIFAR-10,Waterbirds,CelebAデータセットのショートカットについて検討した。
ショートカット学習は特定のレイヤにローカライズされず、ネットワーク全体に分散していることがわかった。
論文 参考訳(メタデータ) (2025-10-30T14:51:03Z) - How LLMs Learn to Reason: A Complex Network Perspective [14.638878448692493]
Reinforcement Learning from Verifiable Rewards による大規模言語モデルのトレーニングは、突飛な振る舞いのセットを示している。
この現象は単一統一理論を用いて説明できると考えられる。
私たちの研究は、将来のAIシステムの創発的な推論能力をエンジニアリングするための新しい物理的直感を提供します。
論文 参考訳(メタデータ) (2025-09-28T04:10:37Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - No Wrong Turns: The Simple Geometry Of Neural Networks Optimization
Paths [12.068608358926317]
1次最適化アルゴリズムは、ディープニューラルネットワークにおいて好ましいミニマを効率的に見つけることが知られている。
2つの鍵経路における標本最適化量の基本的な幾何学的性質に焦点をあてる。
以上の結果から,最適化トラジェクトリは大きな障害に遭遇しないだけでなく,ほとんどのトレーニングにおいて安定なダイナミクスも維持できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-20T22:10:40Z) - Beyond spectral gap (extended): The role of the topology in
decentralized learning [58.48291921602417]
機械学習モデルのデータ並列最適化では、労働者はモデルの推定値を改善するために協力する。
現在の理論では、コラボレーションはトレーニング単独よりも学習率が大きいことを説明していない。
本稿では,疎結合分散最適化の正確な図面を描くことを目的とする。
論文 参考訳(メタデータ) (2023-01-05T16:53:38Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。