論文の概要: Data-efficient Alignment of Multimodal Sequences by Aligning Gradient
Updates and Internal Feature Distributions
- arxiv url: http://arxiv.org/abs/2011.07517v1
- Date: Sun, 15 Nov 2020 13:04:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 07:21:17.985173
- Title: Data-efficient Alignment of Multimodal Sequences by Aligning Gradient
Updates and Internal Feature Distributions
- Title(参考訳): 勾配更新と内部特徴分布の整合によるマルチモーダルシーケンスのデータ効率アライメント
- Authors: Jianan Wang, Boyang Li, Xiangyu Fan, Jing Lin and Yanwei Fu
- Abstract要約: 近年の研究では、異なるモダリティを扱うネットワークコンポーネントが、異なる速度でオーバーフィットし、一般化し、トレーニングの難しさを生んでいることが示唆されている。
本稿では,各層における勾配更新の規模を調整し,学習速度のバランスをとるため,LARS(Layer-wise Adaptive Rate Scaling)を提案する。
また、シーケンスワイドバッチ正規化(SBN)を用いて、内部の特徴分布を異なるモードから整列する。
- 参考スコア(独自算出の注目度): 36.82512331179322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of video and text sequence alignment is a prerequisite step toward
joint understanding of movie videos and screenplays. However, supervised
methods face the obstacle of limited realistic training data. With this paper,
we attempt to enhance data efficiency of the end-to-end alignment network
NeuMATCH [15]. Recent research [56] suggests that network components dealing
with different modalities may overfit and generalize at different speeds,
creating difficulties for training. We propose to employ (1) layer-wise
adaptive rate scaling (LARS) to align the magnitudes of gradient updates in
different layers and balance the pace of learning and (2) sequence-wise batch
normalization (SBN) to align the internal feature distributions from different
modalities. Finally, we leverage random projection to reduce the dimensionality
of input features. On the YouTube Movie Summary dataset, the combined use of
these technique closes the performance gap when the pretraining on the LSMDC
dataset is omitted and achieves the state-of-the-art result. Extensive
empirical comparisons and analysis reveal that these techniques improve
optimization and regularize the network more effectively than two different
setups of layer normalization.
- Abstract(参考訳): ビデオおよびテキストシーケンスアライメントのタスクは、映画ビデオとスクリーンプレイの合同理解に向けた必須ステップである。
しかし、教師付きメソッドは、制限された現実的なトレーニングデータの障害に直面している。
本稿では,エンドツーエンドアライメントネットワークであるNeuMATCH [15]のデータ効率の向上を試みる。
最近の研究 [56] は、異なるモダリティを扱うネットワークコンポーネントが、異なる速度で過度に適合し、一般化し、トレーニングの困難を生んでいることを示唆している。
本稿では,(1)異なる層における勾配更新の大きさを調整し,学習速度のバランスをとるための層別適応レートスケーリング (lars) と,(2)異なるモダリティから内部特徴分布を整合させるsequence-wise batch normalization (sbn) を提案する。
最後に,入力特徴の次元性を低減するためにランダムプロジェクションを利用する。
YouTube Movie Summaryデータセットでは、これらのテクニックを組み合わせることで、LCMDCデータセットの事前トレーニングが省略され、最先端の結果が得られ、パフォーマンスギャップを埋める。
広範な経験的比較と分析により、これらの手法が最適化を改善し、ネットワークを2つの異なる層正規化のセットアップよりも効果的に規則化することが明らかになった。
関連論文リスト
- LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - An Adaptive and Stability-Promoting Layerwise Training Approach for Sparse Deep Neural Network Architecture [0.0]
この研究は、与えられたトレーニングデータセットに対してうまく一般化するディープニューラルネットワーク(DNN)アーキテクチャを開発するための2段階適応フレームワークを提案する。
第1段階では、新しいレイヤを毎回追加し、前のレイヤでパラメータを凍結することで独立してトレーニングする、レイヤワイズトレーニングアプローチが採用されている。
本稿では, 学習アルゴリズムの望ましい特性として, エプシロン・デルタ安定促進の概念を導入し, 多様体正規化を用いることで, エプシロン・デルタ安定促進アルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-13T09:51:16Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - Regularizing Deep Networks with Semantic Data Augmentation [44.53483945155832]
従来の手法を補完する新しい意味データ拡張アルゴリズムを提案する。
提案手法はディープネットワークが線形化特徴の学習に有効であるという興味深い性質に着想を得たものである。
提案した暗黙的セマンティックデータ拡張(ISDA)アルゴリズムは,新たなロバストCE損失を最小限に抑える。
論文 参考訳(メタデータ) (2020-07-21T00:32:44Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。