論文の概要: On the Pitfalls of Batch Normalization for End-to-End Video Learning: A
Study on Surgical Workflow Analysis
- arxiv url: http://arxiv.org/abs/2203.07976v3
- Date: Wed, 28 Feb 2024 13:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 19:43:23.390170
- Title: On the Pitfalls of Batch Normalization for End-to-End Video Learning: A
Study on Surgical Workflow Analysis
- Title(参考訳): エンド・ツー・エンドビデオ学習におけるバッチ正規化の落とし穴--手術ワークフロー分析に関する研究
- Authors: Dominik Rivoir, Isabel Funke, Stefanie Speidel
- Abstract要約: バッチの他のサンプルに依存するバッチ正規化(BN)固有の性質は、いくつかのタスクで問題を引き起こすことが知られている。
ビデオ学習におけるBNの落とし穴を解析し、期待する「暖房」効果などのオンラインタスクに特有な課題を含む。
外科的作業において,BNの落とし穴に対する意識は,効果的なエンドツーエンド学習に不可欠である。
- 参考スコア(独自算出の注目度): 1.8708332336958036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Batch Normalization's (BN) unique property of depending on other samples in a
batch is known to cause problems in several tasks, including sequential
modeling. Yet, BN-related issues are hardly studied for long video
understanding, despite the ubiquitous use of BN in CNNs (Convolutional Neural
Networks) for feature extraction. Especially in surgical workflow analysis,
where the lack of pretrained feature extractors has led to complex, multi-stage
training pipelines, limited awareness of BN issues may have hidden the benefits
of training CNNs and temporal models end to end. In this paper, we analyze
pitfalls of BN in video learning, including issues specific to online tasks
such as a 'cheating' effect in anticipation. We observe that BN's properties
create major obstacles for end-to-end learning. However, using BN-free
backbones, even simple CNN-LSTMs beat the state of the art
{\color{\colorrevtwo}on three surgical workflow benchmarks} by utilizing
adequate end-to-end training strategies which maximize temporal context. We
conclude that awareness of BN's pitfalls is crucial for effective end-to-end
learning in surgical tasks. By reproducing results on natural-video datasets,
we hope our insights will benefit other areas of video learning as well. Code
is available at: \url{https://gitlab.com/nct_tso_public/pitfalls_bn}
- Abstract(参考訳): バッチの他のサンプルに依存するバッチ正規化(BN)固有の性質は、シーケンシャルモデリングを含むいくつかのタスクで問題を引き起こすことが知られている。
しかし、BN関連の問題は、CNN(Convolutional Neural Networks)でBNをユビキタスに使用しているにもかかわらず、長いビデオ理解のためにはほとんど研究されていない。
特に外科的ワークフロー分析では、事前訓練された特徴抽出器の欠如が複雑で多段階の訓練パイプラインに繋がったため、BN問題に対する限られた認識がCNNと時間モデルの訓練の利点を隠蔽していた可能性がある。
本稿では,ビデオ学習におけるBNの落とし穴を分析し,期待する「暖房」効果などのオンラインタスクに特有な課題を含む。
BNの特性がエンドツーエンド学習の大きな障害となるのを観察する。
しかし、BNフリーのバックボーンを用いて、単純なCNN-LSTMでさえ、時間的文脈を最大化する適切なエンドツーエンドのトレーニング戦略を利用することで、3つの外科的ワークフローベンチマークにおけるアートの状態を破る。
外科的作業において,BNの落とし穴に対する意識は効果的なエンドツーエンド学習に不可欠である。
自然ビデオデータセットの結果を再現することで、私たちの洞察がビデオ学習の他の分野にも役立つことを願っています。
コードは: \url{https://gitlab.com/nct_tso_public/pitfalls_bn}
関連論文リスト
- Unified Batch Normalization: Identifying and Alleviating the Feature
Condensation in Batch Normalization and a Unified Framework [55.22949690864962]
バッチ正規化(BN)は、現代のニューラルネットワーク設計において欠かせない技術となっている。
UBN(Unified Batch Normalization)と呼ばれる2段階統合フレームワークを提案する。
UBNは異なる視覚バックボーンと異なる視覚タスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-27T16:41:31Z) - Overcoming Recency Bias of Normalization Statistics in Continual
Learning: Balance and Adaptation [67.77048565738728]
継続的な学習には、一連のタスクを学習し、彼らの知識を適切にバランスさせることが含まれる。
本稿では,タスク・ワイド・コントリビューションに適応するためのベイズ的戦略を適切に取り入れた BN の適応バランス (AdaB$2$N) を提案する。
提案手法は,幅広いベンチマークにおいて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T04:50:40Z) - S3TC: Spiking Separated Spatial and Temporal Convolutions with
Unsupervised STDP-based Learning for Action Recognition [1.2123876307427106]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上で実装される場合、通常の非スパイキングネットワークよりも計算コスト(数倍)が著しく低い。
本稿では,ビデオ解析に必要なパラメータ数を削減すべく,S3TC(Spike Separated Space and Temporal Convolutions)を初めて紹介する。
論文 参考訳(メタデータ) (2023-09-22T10:05:35Z) - Pitfalls of Conditional Batch Normalization for Contextual Multi-Modal
Learning [8.571329113719973]
条件付きバッチ正規化(CBN)は、深層学習タスクを支援するためにコンテキスト特徴を学習する一般的な方法である。
CBNによる補助データの導入によって得られた視覚的特徴が劣化することを明らかにする。
CBNは補助データとラベル間のショートカット学習を促進する。
論文 参考訳(メタデータ) (2022-11-28T05:15:16Z) - Rebalancing Batch Normalization for Exemplar-based Class-Incremental
Learning [23.621259845287824]
バッチ正規化(BN)は、様々なコンピュータビジョンタスクにおけるニューラルネットに対して広く研究されている。
我々はBNの新しい更新パッチを開発し、特にCIL(Exemplar-based class-incremental Learning)に特化している。
論文 参考訳(メタデータ) (2022-01-29T11:03:03Z) - "BNN - BN = ?": Training Binary Neural Networks without Batch
Normalization [92.23297927690149]
バッチ正規化(BN)は、最先端のバイナリニューラルネットワーク(BNN)に不可欠な重要なファシリテータである
BNNのトレーニングに彼らのフレームワークを拡張し、BNNのトレーニングや推論体制からBNを除去できることを初めて実証します。
論文 参考訳(メタデータ) (2021-04-16T16:46:57Z) - TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文 参考訳(メタデータ) (2020-06-10T06:45:05Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z) - How Does BN Increase Collapsed Neural Network Filters? [34.886702335022015]
フィルタ崩壊は、バッチ正規化(BN)と修正線形活性化関数(ReLU、Leaky ReLUなど)を持つディープニューラルネットワーク(DNN)でよく見られる。
本稿では, BN と同一の表現能力を持つポストシフト後の BN (psBN) を, トレーニング中に飽和した BN パラメータを再度トレーニングできる簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2020-01-30T09:00:08Z) - Towards Stabilizing Batch Statistics in Backward Propagation of Batch
Normalization [126.6252371899064]
移動平均バッチ正規化(MABN)は,新しい正規化法である。
小バッチの場合,MABNはバニラBNの性能を完全に回復できることを示す。
実験では、ImageNetやCOCOを含む複数のコンピュータビジョンタスクにおけるMABNの有効性を実証した。
論文 参考訳(メタデータ) (2020-01-19T14:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。