論文の概要: Model Merging is Secretly Certifiable: Non-Vacuous Generalisation Bounds for Low-Shot Learning
- arxiv url: http://arxiv.org/abs/2505.15798v1
- Date: Wed, 21 May 2025 17:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.815538
- Title: Model Merging is Secretly Certifiable: Non-Vacuous Generalisation Bounds for Low-Shot Learning
- Title(参考訳): モデルマージが秘かに証明される - ローショット学習のための非価値な一般化境界
- Authors: Taehoon Kim, Henry Gouk, Minyoung Kim, Timothy Hospedales,
- Abstract要約: モデル融合と一般化証明に基づく学習手法のファミリー間の新しい関係を描いている。
微調整により、既存の学習戦略が既に非自明な一般化保証を提供していることを示す。
この結果から,100の例を学習する上で,非自明な一般化が保証されることが確認された。
- 参考スコア(独自算出の注目度): 31.87258954139579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Certifying the IID generalisation ability of deep networks is the first of many requirements for trusting AI in high-stakes applications from medicine to security. However, when instantiating generalisation bounds for deep networks it remains challenging to obtain non-vacuous guarantees, especially when applying contemporary large models on the small scale data prevalent in such high-stakes fields. In this paper, we draw a novel connection between a family of learning methods based on model fusion and generalisation certificates, and surprisingly show that with minor adjustment several existing learning strategies already provide non-trivial generalisation guarantees. Essentially, by focusing on data-driven learning of downstream tasks by fusion rather than fine-tuning, the certified generalisation gap becomes tiny and independent of the base network size, facilitating its certification. Our results show for the first time non-trivial generalisation guarantees for learning with as low as 100 examples, while using vision models such as VIT-B and language models such as mistral-7B. This observation is significant as it has immediate implications for facilitating the certification of existing systems as trustworthy, and opens up new directions for research at the intersection of practice and theory.
- Abstract(参考訳): ディープネットワークのIID一般化能力の認定は、医療からセキュリティに至るまで、高度なアプリケーションにおいてAIを信頼するための多くの要件の1つだ。
しかしながら、ディープ・ネットワークの一般化境界をインスタンス化する場合、特にそのような高精細な分野で一般的な小規模データに現代の大規模モデルを適用する場合、非空き保証を得ることは依然として困難である。
本稿では,モデル融合と一般化証明書に基づく学習手法のファミリー間の新たな関係を描き,既存の学習戦略の微調整によって,非自明な一般化保証がすでに実現されていることを驚くほど示している。
本質的には、微調整ではなく融合による下流タスクのデータ駆動学習に焦点を当てることで、認定された一般化ギャップは、ベースネットワークサイズとは独立して小さくなり、認証が容易になる。
この結果から,VIT-Bのような視覚モデルとMistral-7Bのような言語モデルを用いて,100の例を学習するための非自明な一般化が保証された。
この観察は、既存のシステムを信頼に値するものとして認定し、実践と理論の交わりで研究するための新たな方向性を開くという、直接的な意味を持つ。
関連論文リスト
- Generalizability of Neural Networks Minimizing Empirical Risk Based on Expressive Ability [20.371836553400232]
本稿では,経験的リスクを最小限に抑えた,あるいはほぼ最小化したニューラルネットワークの一般化可能性について検討する。
我々は、堅牢な一般化を含む、深層学習におけるいくつかの現象に関する理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-03-06T05:36:35Z) - Towards Certified Unlearning for Deep Neural Networks [50.816473152067104]
認定されていない未学習は、凸機械学習モデルで広く研究されている。
認定アンラーニングとディープニューラルネットワーク(DNN)のギャップを埋める手法をいくつか提案する。
論文 参考訳(メタデータ) (2024-08-01T21:22:10Z) - Unifying Self-Supervised Clustering and Energy-Based Models [9.3176264568834]
自己教師付き学習と生成モデルとの間には,原則的な関連性を確立する。
シンボル接地問題の単純かつ非自明なインスタンス化に対処するために,我々の解法をニューロシンボリックな枠組みに統合できることが示される。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - Sparsity-aware generalization theory for deep neural networks [12.525959293825318]
本稿では、ディープフィードフォワードReLUネットワークの一般化を解析するための新しいアプローチを提案する。
空間性と一般化の基本的なトレードオフを示す。
論文 参考訳(メタデータ) (2023-07-01T20:59:05Z) - FedGen: Generalizable Federated Learning for Sequential Data [8.784435748969806]
多くの実世界の分散環境では、バイアスとデータサンプリングの問題により、急激な相関が存在する。
我々はFedGenという汎用的なフェデレーション学習フレームワークを提案し、クライアントが素早い特徴と不変な特徴を識別および識別できるようにする。
FedGenは、より優れた一般化を実現し、現在のフェデレーション学習手法の精度を24%以上上回るモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-11-03T15:48:14Z) - On-Device Domain Generalization [93.79736882489982]
ドメインの一般化はデバイス上の機械学習アプリケーションにとって重要である。
知識蒸留がこの問題の解決の有力な候補であることがわかった。
本研究では,教師が配布外データをどのように扱えるかを学生に教えることを目的とした,配布外知識蒸留(OKD)という簡単なアイデアを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:59:31Z) - FiLM-Ensemble: Probabilistic Deep Learning via Feature-wise Linear
Modulation [69.34011200590817]
本稿では,特徴量線形変調の概念に基づく暗黙のアンサンブル手法であるFiLM-Ensembleを紹介する。
単一ディープネットワークのネットワークアクティベーションをFiLMで変調することにより、高多様性のモデルアンサンブルを得る。
我々は、FiLM-Ensembleが他の暗黙のアンサンブル法よりも優れており、ネットワークの明示的なアンサンブルの上限に非常に近いことを示す。
論文 参考訳(メタデータ) (2022-05-31T18:33:15Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。