論文の概要: Self Distillation via Iterative Constructive Perturbations
- arxiv url: http://arxiv.org/abs/2505.14751v1
- Date: Tue, 20 May 2025 13:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.674118
- Title: Self Distillation via Iterative Constructive Perturbations
- Title(参考訳): 反復的構成的摂動による自己蒸留
- Authors: Maheak Dave, Aniket Kumar Singh, Aryan Pareek, Harshita Jha, Debasis Chaudhuri, Manish Pratap Singh,
- Abstract要約: 本稿では,循環最適化手法を用いてモデルとその入力データを並列に最適化し,より優れたトレーニングを行う新しいフレームワークを提案する。
モデルのパラメータをデータとデータに交互に変更することにより、本手法は適合性と一般化のギャップを効果的に解決する。
- 参考スコア(独自算出の注目度): 0.2748831616311481
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Neural Networks have achieved remarkable achievements across various domains, however balancing performance and generalization still remains a challenge while training these networks. In this paper, we propose a novel framework that uses a cyclic optimization strategy to concurrently optimize the model and its input data for better training, rethinking the traditional training paradigm. Central to our approach is Iterative Constructive Perturbation (ICP), which leverages the model's loss to iteratively perturb the input, progressively constructing an enhanced representation over some refinement steps. This ICP input is then fed back into the model to produce improved intermediate features, which serve as a target in a self-distillation framework against the original features. By alternately altering the model's parameters to the data and the data to the model, our method effectively addresses the gap between fitting and generalization, leading to enhanced performance. Extensive experiments demonstrate that our approach not only mitigates common performance bottlenecks in neural networks but also demonstrates significant improvements across training variations.
- Abstract(参考訳): ディープニューラルネットワークは、様々な領域で顕著な成果を上げてきたが、パフォーマンスと一般化のバランスは、これらのネットワークをトレーニングしている間も依然として課題である。
本稿では,モデルと入力データを並列に最適化し,学習パラダイムを再考する,循環最適化手法を用いた新しいフレームワークを提案する。
我々のアプローチの中心は反復構成摂動(ICP)であり、これはモデルの損失を利用して入力を反復的に摂動させ、いくつかの洗練されたステップ上で拡張された表現を段階的に構築する。
このICP入力は、改良された中間機能を生成するためにモデルにフィードバックされ、オリジナルの機能に対する自己蒸留フレームワークのターゲットとして機能する。
モデルのパラメータをデータとデータとを交互に変更することにより、本手法は適合性と一般化のギャップを効果的に解決し、性能を向上する。
大規模な実験により、我々のアプローチはニューラルネットワークの一般的なパフォーマンスボトルネックを軽減するだけでなく、トレーニングのバリエーションにまたがる大幅な改善も示している。
関連論文リスト
- ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。
最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。
Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
論文 参考訳(メタデータ) (2024-12-30T16:06:31Z) - Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。
この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。
本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。
ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文 参考訳(メタデータ) (2024-09-17T19:59:57Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - A Differential Game Theoretic Neural Optimizer for Training Residual
Networks [29.82841891919951]
本稿では、残差接続と畳み込み層の両方を受け入れる一般化微分動的プログラミング(DDP)ニューラルアーキテクチャを提案する。
得られた最適制御表現は、トレーニング残余ネットワークを、状態拡張システム上での協調的軌道最適化と解釈できるゲーム論的視点を許容する。
論文 参考訳(メタデータ) (2020-07-17T10:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。