論文の概要: Disentangled Lottery Tickets: Identifying and Assembling Core and Specialist Subnetworks
- arxiv url: http://arxiv.org/abs/2508.16915v2
- Date: Sun, 02 Nov 2025 04:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 02:21:43.156996
- Title: Disentangled Lottery Tickets: Identifying and Assembling Core and Specialist Subnetworks
- Title(参考訳): 散らばった宝くじ:コアとスペシャリストのサブネットの同定と組み立て
- Authors: Sadman Mohammad Nasif, Md Abrar Jahin, M. F. Mridha,
- Abstract要約: Lottery Ticket仮説は、大きなニューラルネットワークでは、スパースでトレーニング可能な"勝利チケット"が存在することを示唆している。
本稿では,ディスタングル・ロタリー・チケット(DiLT)仮説を提案する。この仮説は,交叉マスクが普遍的でタスクに依存しない「コア」サブネットワークであることを示すものである。
ImageNetと、ResNetやVision Transformerアーキテクチャを使ったStanford Carsのようなきめ細かいデータセットの実験では、"core"チケットは優れた転送学習性能を提供し、"specialist"チケットはモジュラーアセンブリを可能にするドメイン固有の特徴を保持し、完全に再組み立てされた"union"チケットはCOLTを上回っている。
- 参考スコア(独自算出の注目度): 0.2730969268472861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Lottery Ticket Hypothesis (LTH) suggests that within large neural networks, there exist sparse, trainable "winning tickets" capable of matching the performance of the full model, but identifying them through Iterative Magnitude Pruning (IMP) is computationally expensive. Recent work introduced COLT, an accelerator that discovers a "consensus" subnetwork by intersecting masks from models trained on disjoint data partitions; however, this approach discards all non-overlapping weights, assuming they are unimportant. This paper challenges that assumption and proposes the Disentangled Lottery Ticket (DiLT) Hypothesis, which posits that the intersection mask represents a universal, task-agnostic "core" subnetwork, while the non-overlapping difference masks capture specialized, task-specific "specialist" subnetworks. A framework is developed to identify and analyze these components using the Gromov-Wasserstein (GW) distance to quantify functional similarity between layer representations and reveal modular structures through spectral clustering. Experiments on ImageNet and fine-grained datasets such as Stanford Cars, using ResNet and Vision Transformer architectures, show that the "core" ticket provides superior transfer learning performance, the "specialist" tickets retain domain-specific features enabling modular assembly, and the full re-assembled "union" ticket outperforms COLT - demonstrating that non-consensus weights play a critical functional role. This work reframes pruning as a process for discovering modular, disentangled subnetworks rather than merely compressing models.
- Abstract(参考訳): Lottery Ticket hypothesis (LTH) は、大規模なニューラルネットワーク内には、完全なモデルのパフォーマンスにマッチする、スパースでトレーニング可能な「勝利チケット」が存在するが、Iterative Magnitude Pruning (IMP) による識別は計算コストがかかることを示唆している。
最近の研究は、解離したデータパーティションで訓練されたモデルからマスクを交差させることで「合意」サブネットワークを発見する加速器であるCOLTを導入したが、このアプローチは、重要でないと仮定して、すべての重複しない重みを破棄する。
本稿では、この仮定に挑戦し、交叉マスクがタスク非依存の「コア」サブネットワークであり、非重複の差分マスクはタスク固有の「特殊主義者」サブネットワークを捉えていると仮定するディアンタングル・ロタリー・チケット仮説を提案する。
フレームワークはGromov-Wasserstein (GW) 距離を用いてこれらのコンポーネントを識別・解析し、層表現間の機能的類似性を定量化し、スペクトルクラスタリングを通してモジュラ構造を明らかにする。
ImageNetとStanford Carsのようなきめ細かいデータセットの実験では、ResNetやVision Transformerアーキテクチャを使って、"core"チケットは優れた転送学習性能を提供し、"specialist"チケットはモジュールアセンブリを可能にするドメイン固有の特徴を保持し、完全な"union"チケットはCOLTより優れており、非合意ウェイトが重要な機能的役割を果たすことを示している。
この作業は、単にモデルを圧縮するのではなく、モジュラーで歪んだサブネットを発見するプロセスとしてプルーニングを再設計する。
関連論文リスト
- White-Basilisk: A Hybrid Model for Code Vulnerability Detection [50.49233187721795]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。
White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。
この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-07-11T12:39:25Z) - Poster: Enhancing GNN Robustness for Network Intrusion Detection via Agent-based Analysis [5.881825061973424]
グラフニューラルネットワーク(GNN)は、NIDS(Network Intrusion Detection Systems)に非常に有望であることを示す
GNNは分布のドリフトによって性能が低下し、現実的な敵攻撃に対するロバスト性が欠如している。
本研究は,エージェントパイプラインにLarge Language Models(LLMs)を模擬サイバーセキュリティ専門家エージェントとして使用することにより,GNNの堅牢性と一般化を促進する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-25T19:49:55Z) - Detecting Financial Fraud with Hybrid Deep Learning: A Mix-of-Experts Approach to Sequential and Anomalous Patterns [0.0]
本研究では、Mixture of Experts(MoE)フレームワークとRecurrent Neural Networks(RNN)、Transformer Encoders、Autoencodersを統合したクレジットカード不正検出用ハイブリッドアーキテクチャを提案する。
MoEフレームワークは専門家の予測責任を動的に割り当て、適応的で文脈に敏感な意思決定を可能にする。
提案するハイブリッドシステムは、ますます洗練された詐欺パターンを検出するために、スケーラブルでモジュラーで規制対応のアプローチを提供する。
論文 参考訳(メタデータ) (2025-04-01T20:47:18Z) - LENS-XAI: Redefining Lightweight and Explainable Network Security through Knowledge Distillation and Variational Autoencoders for Scalable Intrusion Detection in Cybersecurity [0.0]
本研究は軽量説明可能ネットワークセキュリティフレームワーク(LENS-XAI)を紹介する。
LENS-XAIは、堅牢な侵入検知と、拡張された解釈可能性とスケーラビリティを組み合わせる。
本研究は, 計算効率, 特徴解釈可能性, 実世界の応用性に対処することで, IDSの進歩に大きく貢献する。
論文 参考訳(メタデータ) (2025-01-01T10:00:49Z) - Scalable and Effective Negative Sample Generation for Hyperedge Prediction [55.9298019975967]
ハイパーエッジ予測は、Webベースのアプリケーションにおける複雑なマルチエンタリティ相互作用を理解するために不可欠である。
従来の手法では、正と負のインスタンスの不均衡により、高品質な負のサンプルを生成するのが困難であることが多い。
本稿では,これらの課題に対処するために拡散モデルを利用するハイパーエッジ予測(SEHP)フレームワークのスケーラブルで効果的な負のサンプル生成について述べる。
論文 参考訳(メタデータ) (2024-11-19T09:16:25Z) - Advanced Financial Fraud Detection Using GNN-CL Model [13.5240775562349]
本稿では,金融不正検出の分野において,革新的なGNN-CLモデルを提案する。
グラフニューラルネットワーク(gnn)、畳み込みニューラルネットワーク(cnn)、長期記憶(LSTM)の利点を組み合わせる。
本稿では,マルチ層パーセプトロン(MLPS)を用いてノードの類似性を推定する。
論文 参考訳(メタデータ) (2024-07-09T03:59:06Z) - Robustness Certificates for Implicit Neural Networks: A Mixed Monotone
Contractive Approach [60.67748036747221]
暗黙のニューラルネットワークは、競合性能とメモリ消費の削減を提供する。
入力逆流の摂動に関して、それらは不安定なままである。
本稿では,暗黙的ニューラルネットワークのロバスト性検証のための理論的および計算的枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-10T03:08:55Z) - Federated Learning with Unreliable Clients: Performance Analysis and
Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。
しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。
クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T08:02:27Z) - Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve
Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。
予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-03-02T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。