論文の概要: Data-efficient Alignment of Multimodal Sequences by Aligning Gradient
Updates and Internal Feature Distributions
- arxiv url: http://arxiv.org/abs/2011.07517v1
- Date: Sun, 15 Nov 2020 13:04:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 07:21:17.985173
- Title: Data-efficient Alignment of Multimodal Sequences by Aligning Gradient
Updates and Internal Feature Distributions
- Title(参考訳): 勾配更新と内部特徴分布の整合によるマルチモーダルシーケンスのデータ効率アライメント
- Authors: Jianan Wang, Boyang Li, Xiangyu Fan, Jing Lin and Yanwei Fu
- Abstract要約: 近年の研究では、異なるモダリティを扱うネットワークコンポーネントが、異なる速度でオーバーフィットし、一般化し、トレーニングの難しさを生んでいることが示唆されている。
本稿では,各層における勾配更新の規模を調整し,学習速度のバランスをとるため,LARS(Layer-wise Adaptive Rate Scaling)を提案する。
また、シーケンスワイドバッチ正規化(SBN)を用いて、内部の特徴分布を異なるモードから整列する。
- 参考スコア(独自算出の注目度): 36.82512331179322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of video and text sequence alignment is a prerequisite step toward
joint understanding of movie videos and screenplays. However, supervised
methods face the obstacle of limited realistic training data. With this paper,
we attempt to enhance data efficiency of the end-to-end alignment network
NeuMATCH [15]. Recent research [56] suggests that network components dealing
with different modalities may overfit and generalize at different speeds,
creating difficulties for training. We propose to employ (1) layer-wise
adaptive rate scaling (LARS) to align the magnitudes of gradient updates in
different layers and balance the pace of learning and (2) sequence-wise batch
normalization (SBN) to align the internal feature distributions from different
modalities. Finally, we leverage random projection to reduce the dimensionality
of input features. On the YouTube Movie Summary dataset, the combined use of
these technique closes the performance gap when the pretraining on the LSMDC
dataset is omitted and achieves the state-of-the-art result. Extensive
empirical comparisons and analysis reveal that these techniques improve
optimization and regularize the network more effectively than two different
setups of layer normalization.
- Abstract(参考訳): ビデオおよびテキストシーケンスアライメントのタスクは、映画ビデオとスクリーンプレイの合同理解に向けた必須ステップである。
しかし、教師付きメソッドは、制限された現実的なトレーニングデータの障害に直面している。
本稿では,エンドツーエンドアライメントネットワークであるNeuMATCH [15]のデータ効率の向上を試みる。
最近の研究 [56] は、異なるモダリティを扱うネットワークコンポーネントが、異なる速度で過度に適合し、一般化し、トレーニングの困難を生んでいることを示唆している。
本稿では,(1)異なる層における勾配更新の大きさを調整し,学習速度のバランスをとるための層別適応レートスケーリング (lars) と,(2)異なるモダリティから内部特徴分布を整合させるsequence-wise batch normalization (sbn) を提案する。
最後に,入力特徴の次元性を低減するためにランダムプロジェクションを利用する。
YouTube Movie Summaryデータセットでは、これらのテクニックを組み合わせることで、LCMDCデータセットの事前トレーニングが省略され、最先端の結果が得られ、パフォーマンスギャップを埋める。
広範な経験的比較と分析により、これらの手法が最適化を改善し、ネットワークを2つの異なる層正規化のセットアップよりも効果的に規則化することが明らかになった。
関連論文リスト
- Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Weakly-supervised Representation Learning for Video Alignment and
Analysis [16.80278496414627]
本稿では,新しい表現学習手法LRPropを紹介する。
提案アルゴリズムは、学習した特徴をよりよくチューニングするために、正規化されたSoftDTW損失も利用する。
我々の新しい表現学習パラダイムは、時間的アライメントタスクにおける技術の現状を一貫して上回ります。
論文 参考訳(メタデータ) (2023-02-08T14:01:01Z) - Layerwise Sparsifying Training and Sequential Learning Strategy for
Neural Architecture Adaptation [0.0]
この研究は、与えられたトレーニングデータセットに順応し、一般化するために、ニューラルネットワークを開発するための2段階のフレームワークを提示します。
第1段階では、新しい層を毎回追加し、前層の凍結パラメータによって独立に訓練する、多様体規則化層ワイズトレーニングアプローチを採用する。
第2の段階では、第1の段階で生成された残余から情報を抽出するために、一連の小ネットワークを用いるシーケンシャルな学習プロセスを採用する。
論文 参考訳(メタデータ) (2022-11-13T09:51:16Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - Regularizing Deep Networks with Semantic Data Augmentation [44.53483945155832]
従来の手法を補完する新しい意味データ拡張アルゴリズムを提案する。
提案手法はディープネットワークが線形化特徴の学習に有効であるという興味深い性質に着想を得たものである。
提案した暗黙的セマンティックデータ拡張(ISDA)アルゴリズムは,新たなロバストCE損失を最小限に抑える。
論文 参考訳(メタデータ) (2020-07-21T00:32:44Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。