論文の概要: On the Pitfalls of Batch Normalization for End-to-End Video Learning: A
Study on Surgical Workflow Analysis
- arxiv url: http://arxiv.org/abs/2203.07976v1
- Date: Tue, 15 Mar 2022 15:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 21:11:59.115038
- Title: On the Pitfalls of Batch Normalization for End-to-End Video Learning: A
Study on Surgical Workflow Analysis
- Title(参考訳): エンド・ツー・エンドビデオ学習におけるバッチ正規化の落とし穴--手術ワークフロー分析に関する研究
- Authors: Dominik Rivoir, Isabel Funke, Stefanie Speidel
- Abstract要約: バッチの他のサンプルに依存するバッチ正規化(BN)固有の性質は、いくつかのタスクで問題を引き起こすことが知られている。
我々は,BNの特性がCNNのトレーニングにおいて大きな障害を生じさせ,時間モデルがビデオタスクで終端すると主張している。
BNを含まないCNNを用いた場合、単純なCNN-LSTMでさえ、最先端のCNN-LSTMよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.04125187280299246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Batch Normalization's (BN) unique property of depending on other samples in a
batch is known to cause problems in several tasks, including sequential
modeling, and has led to the use of alternatives in these fields. In video
learning, however, these problems are less studied, despite the ubiquitous use
of BN in CNNs for visual feature extraction. We argue that BN's properties
create major obstacles for training CNNs and temporal models end to end in
video tasks. Yet, end-to-end learning seems preferable in specialized domains
such as surgical workflow analysis, which lack well-pretrained feature
extractors. While previous work in surgical workflow analysis has avoided
BN-related issues through complex, multi-stage learning procedures, we show
that even simple, end-to-end CNN-LSTMs can outperform the state of the art when
CNNs without BN are used. Moreover, we analyze in detail when BN-related issues
occur, including a "cheating" phenomenon in surgical anticipation tasks. We
hope that a deeper understanding of BN's limitations and a reconsideration of
end-to-end approaches can be beneficial for future research in surgical
workflow analysis and general video learning.
- Abstract(参考訳): バッチの他のサンプルに依存するバッチ正規化(BN)固有の性質は、シーケンシャルモデリングを含むいくつかのタスクで問題を引き起こすことが知られており、これらの分野における代替案の使用につながっている。
しかし,ビデオ学習においては,視覚的特徴抽出にBNをユビキタスに使用しているにもかかわらず,これらの問題は研究されていない。
我々は,BNの特性がCNNのトレーニングにおいて大きな障害を生じさせ,時間モデルがビデオタスクで終端すると主張している。
しかし,外科的ワークフロー分析などの専門領域では,特徴抽出器が不足しているため,エンド・ツー・エンドの学習が望ましいと考えられる。
手術ワークフロー分析におけるこれまでの研究は、複雑な多段階学習手順を通じてbn関連の問題を避けてきたが、単純なエンドツーエンドのcnn-lstmであっても、bnのないcnnを使用する場合の技術の状態を上回ることができる。
さらに,手術予知作業における「加熱」現象を含むBN関連問題の発生時期を詳細に分析した。
BNの限界に対する深い理解とエンドツーエンドのアプローチの再検討が、外科的ワークフロー分析や一般的なビデオ学習における将来の研究に有用であることを期待している。
関連論文リスト
- Unified Batch Normalization: Identifying and Alleviating the Feature
Condensation in Batch Normalization and a Unified Framework [55.22949690864962]
バッチ正規化(BN)は、現代のニューラルネットワーク設計において欠かせない技術となっている。
UBN(Unified Batch Normalization)と呼ばれる2段階統合フレームワークを提案する。
UBNは異なる視覚バックボーンと異なる視覚タスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-27T16:41:31Z) - Overcoming Recency Bias of Normalization Statistics in Continual
Learning: Balance and Adaptation [67.77048565738728]
継続的な学習には、一連のタスクを学習し、彼らの知識を適切にバランスさせることが含まれる。
本稿では,タスク・ワイド・コントリビューションに適応するためのベイズ的戦略を適切に取り入れた BN の適応バランス (AdaB$2$N) を提案する。
提案手法は,幅広いベンチマークにおいて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T04:50:40Z) - S3TC: Spiking Separated Spatial and Temporal Convolutions with
Unsupervised STDP-based Learning for Action Recognition [1.2123876307427106]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上で実装される場合、通常の非スパイキングネットワークよりも計算コスト(数倍)が著しく低い。
本稿では,ビデオ解析に必要なパラメータ数を削減すべく,S3TC(Spike Separated Space and Temporal Convolutions)を初めて紹介する。
論文 参考訳(メタデータ) (2023-09-22T10:05:35Z) - Pitfalls of Conditional Batch Normalization for Contextual Multi-Modal
Learning [8.571329113719973]
条件付きバッチ正規化(CBN)は、深層学習タスクを支援するためにコンテキスト特徴を学習する一般的な方法である。
CBNによる補助データの導入によって得られた視覚的特徴が劣化することを明らかにする。
CBNは補助データとラベル間のショートカット学習を促進する。
論文 参考訳(メタデータ) (2022-11-28T05:15:16Z) - Rebalancing Batch Normalization for Exemplar-based Class-Incremental
Learning [23.621259845287824]
バッチ正規化(BN)は、様々なコンピュータビジョンタスクにおけるニューラルネットに対して広く研究されている。
我々はBNの新しい更新パッチを開発し、特にCIL(Exemplar-based class-incremental Learning)に特化している。
論文 参考訳(メタデータ) (2022-01-29T11:03:03Z) - "BNN - BN = ?": Training Binary Neural Networks without Batch
Normalization [92.23297927690149]
バッチ正規化(BN)は、最先端のバイナリニューラルネットワーク(BNN)に不可欠な重要なファシリテータである
BNNのトレーニングに彼らのフレームワークを拡張し、BNNのトレーニングや推論体制からBNを除去できることを初めて実証します。
論文 参考訳(メタデータ) (2021-04-16T16:46:57Z) - TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文 参考訳(メタデータ) (2020-06-10T06:45:05Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z) - How Does BN Increase Collapsed Neural Network Filters? [34.886702335022015]
フィルタ崩壊は、バッチ正規化(BN)と修正線形活性化関数(ReLU、Leaky ReLUなど)を持つディープニューラルネットワーク(DNN)でよく見られる。
本稿では, BN と同一の表現能力を持つポストシフト後の BN (psBN) を, トレーニング中に飽和した BN パラメータを再度トレーニングできる簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2020-01-30T09:00:08Z) - Towards Stabilizing Batch Statistics in Backward Propagation of Batch
Normalization [126.6252371899064]
移動平均バッチ正規化(MABN)は,新しい正規化法である。
小バッチの場合,MABNはバニラBNの性能を完全に回復できることを示す。
実験では、ImageNetやCOCOを含む複数のコンピュータビジョンタスクにおけるMABNの有効性を実証した。
論文 参考訳(メタデータ) (2020-01-19T14:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。