論文の概要: Two Independent Teachers are Better Role Model
- arxiv url: http://arxiv.org/abs/2306.05745v1
- Date: Fri, 9 Jun 2023 08:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 14:07:14.699352
- Title: Two Independent Teachers are Better Role Model
- Title(参考訳): 2つの独立した教師はより良い役割モデルです
- Authors: Afifa Khaled, Ahmed A. Mubarak, Kun He
- Abstract要約: 我々は3D-DenseUNetと呼ばれる新しいディープラーニングモデルを提案し、ダウンサンプリングにおいて適応可能なグローバルアグリゲーションブロックとして機能する。
自己アテンションモジュールは、ダウンサンプリングブロックをアップサンプリングブロックに接続し、特徴マップを空間とチャネルの3次元に統合する。
各教師モデルは、それぞれ異なるタイプの脳データ、$T1$と$T2$でトレーニングされる。
- 参考スコア(独自算出の注目度): 9.55078392059428
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent deep learning models have attracted substantial attention in infant
brain analysis. These models have performed state-of-the-art performance, such
as semi-supervised techniques (e.g., Temporal Ensembling, mean teacher).
However, these models depend on an encoder-decoder structure with stacked local
operators to gather long-range information, and the local operators limit the
efficiency and effectiveness. Besides, the $MRI$ data contain different tissue
properties ($TPs$) such as $T1$ and $T2$. One major limitation of these models
is that they use both data as inputs to the segment process, i.e., the models
are trained on the dataset once, and it requires much computational and memory
requirements during inference. In this work, we address the above limitations
by designing a new deep-learning model, called 3D-DenseUNet, which works as
adaptable global aggregation blocks in down-sampling to solve the issue of
spatial information loss. The self-attention module connects the down-sampling
blocks to up-sampling blocks, and integrates the feature maps in three
dimensions of spatial and channel, effectively improving the representation
potential and discriminating ability of the model. Additionally, we propose a
new method called Two Independent Teachers ($2IT$), that summarizes the model
weights instead of label predictions. Each teacher model is trained on
different types of brain data, $T1$ and $T2$, respectively. Then, a fuse model
is added to improve test accuracy and enable training with fewer parameters and
labels compared to the Temporal Ensembling method without modifying the network
architecture. Empirical results demonstrate the effectiveness of the proposed
method.
- Abstract(参考訳): 近年の深層学習モデルは、幼児の脳分析において大きな注目を集めている。
これらのモデルは、半教師技術(例:テンポラルセンスリング、平均教師)など、最先端のパフォーマンスを発揮している。
しかし、これらのモデルは、長い範囲の情報を集めるために局所演算子を積み重ねたエンコーダデコーダ構造に依存し、局所演算子が効率と有効性を制限する。
さらに、$MRI$データは、$T1$や$T2$のような異なる組織特性(TPs$)を含んでいる。
これらのモデルの1つの大きな制限は、セグメンテーションプロセスへの入力として両方のデータ、すなわち、モデルはデータセット上で一度トレーニングされ、推論中に多くの計算とメモリを必要とすることである。
本研究では,3d-denseunetと呼ばれる新しいディープラーニングモデルを設計し,ダウンサンプリング時のグローバルアグリゲーションブロックとして機能し,空間的情報損失の問題を解決することで,上記の制約に対処する。
セルフアテンションモジュールは、ダウンサンプリングブロックとアップサンプリングブロックを接続し、特徴マップを空間とチャネルの3次元に統合し、モデルの表現電位と識別能力を効果的に改善する。
さらに,ラベルの予測ではなくモデル重み付けを要約する「独立教師2名」($2it$)という新しい手法を提案する。
各教師モデルは、それぞれ異なるタイプの脳データ、$T1$と$T2$でトレーニングされる。
次に、テスト精度を向上させるためにfuseモデルを追加し、ネットワークアーキテクチャを変更することなく、テンポラルセンスリング法と比較してパラメータやラベルの少ないトレーニングを可能にする。
その結果,提案手法の有効性が示された。
関連論文リスト
- LoRA Unlearns More and Retains More (Student Abstract) [0.0]
PruneLoRAは、モデルに低ランクの更新を適用することで、大規模なパラメータ更新の必要性を減らす。
そこで我々はLoRAを利用してプルーンドモデルのパラメータのサブセットを選択的に修正し、計算コスト、メモリ要件を低減し、残りのクラスの性能を維持するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-11-16T16:47:57Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - UnLearning from Experience to Avoid Spurious Correlations [3.283369870504872]
我々は,突発的相関の問題に対処する新しいアプローチを提案する: 経験から学ぶ(ULE)
本手法は,生徒モデルと教師モデルという,並列に訓練された2つの分類モデルを用いた。
提案手法は,Waterbirds,CelebA,Spawrious,UrbanCarsの各データセットに有効であることを示す。
論文 参考訳(メタデータ) (2024-09-04T15:06:44Z) - Reusing Convolutional Neural Network Models through Modularization and
Composition [22.823870645316397]
我々はCNNSplitterとGradSplitterという2つのモジュール化手法を提案する。
CNNSplitterは、トレーニングされた畳み込みニューラルネットワーク(CNN)モデルを、小さな再利用可能なモジュールとして$N$に分解する。
生成されたモジュールは、既存のCNNモデルにパッチを当てたり、コンポジションを通じて新しいCNNモデルを構築するために再利用することができる。
論文 参考訳(メタデータ) (2023-11-08T03:18:49Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Not All Models Are Equal: Predicting Model Transferability in a
Self-challenging Fisher Space [51.62131362670815]
本稿では、トレーニング済みのディープニューラルネットワークのランク付けと、下流タスクにおける最も転送可能なニューラルネットワークのスクリーニングの問題に対処する。
textbfSelf-challenging textbfFisher textbfDiscriminant textbfAnalysis (textbfSFDA)と呼ばれる新しい転送可能性指標を提案する。
論文 参考訳(メタデータ) (2022-07-07T01:33:25Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Contrastive Neighborhood Alignment [81.65103777329874]
本稿では,学習特徴のトポロジを維持するための多様体学習手法であるContrastive Neighborhood Alignment(CNA)を提案する。
対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。
CNAは3つのシナリオで説明される: 多様体学習、モデルが元のデータの局所的なトポロジーを次元還元された空間で維持する、モデル蒸留、小さな学生モデルがより大きな教師を模倣するために訓練される、レガシーモデル更新、より強力なモデルに置き換えられる、という3つのシナリオである。
論文 参考訳(メタデータ) (2022-01-06T04:58:31Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。