論文の概要: Revisiting Pre-training in Audio-Visual Learning
- arxiv url: http://arxiv.org/abs/2302.03533v1
- Date: Tue, 7 Feb 2023 15:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 15:56:48.051599
- Title: Revisiting Pre-training in Audio-Visual Learning
- Title(参考訳): 視聴覚学習における事前学習の再考
- Authors: Ruoxuan Feng, Wenke Xia and Di Hu
- Abstract要約: 事前学習したモデルが2つの音声視覚学習シナリオに与える影響について検討する。
対象タスクに対する事前学習モデルのキャパシティをよりよく活用するために,Adaptive Batchnorm Re-initialization (ABRi)を提案する。
- 参考スコア(独自算出の注目度): 6.547660539954143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training technique has gained tremendous success in enhancing model
performance on various tasks, but found to perform worse than training from
scratch in some uni-modal situations. This inspires us to think: are the
pre-trained models always effective in the more complex multi-modal scenario,
especially for the heterogeneous modalities such as audio and visual ones? We
find that the answer is No. Specifically, we explore the effects of pre-trained
models on two audio-visual learning scenarios: cross-modal initialization and
multi-modal joint learning. When cross-modal initialization is applied, the
phenomena of "dead channel" caused by abnormal Batchnorm parameters hinders the
utilization of model capacity. Thus, we propose Adaptive Batchnorm
Re-initialization (ABRi) to better exploit the capacity of pre-trained models
for target tasks. In multi-modal joint learning, we find a strong pre-trained
uni-modal encoder would bring negative effects on the encoder of another
modality. To alleviate such problem, we introduce a two-stage Fusion Tuning
strategy, taking better advantage of the pre-trained knowledge while making the
uni-modal encoders cooperate with an adaptive masking method. The experiment
results show that our methods could further exploit pre-trained models'
potential and boost performance in audio-visual learning.
- Abstract(参考訳): プリトレーニング技術は、様々なタスクにおけるモデルパフォーマンス向上に多大な成功を収めているが、いくつかのユニモーダルな状況において、スクラッチからトレーニングよりもパフォーマンスが悪かった。
トレーニング済みのモデルは、より複雑なマルチモーダルシナリオ、特にオーディオや視覚といった異質なモダリティにおいて、常に有効であるのでしょうか?
私たちは答えがNoであることに気付きました。
具体的には,事前学習モデルが2つのオーディオ視覚学習シナリオ(クロスモーダル初期化とマルチモーダル共同学習)に与える影響を検討する。
クロスモーダル初期化が適用されると、異常なバッチノルムパラメータによる"dead channel"現象はモデル容量の利用を妨げる。
そこで本稿では,対象タスクに対する事前学習モデルのキャパシティをよりよく活用するために,Adaptive Batchnorm Re-initialization (ABRi)を提案する。
マルチモーダルジョイントラーニングでは、強い事前訓練されたユニモーダルエンコーダが他のモーダルのエンコーダに負の効果をもたらす。
このような問題を緩和するため,一様エンコーダを適応マスキング手法と協調させつつ,事前学習した知識をより活用する2段階のフュージョンチューニング戦略を導入する。
実験結果から,本手法は事前学習モデルの有効性をさらに活用し,音声視覚学習の性能向上を図ることができることがわかった。
関連論文リスト
- Diagnosing and Re-learning for Balanced Multimodal Learning [8.779005254634857]
本稿では,不均衡なマルチモーダル学習問題を克服するための診断・再学習手法を提案する。
各モードの学習状態は、その一様表現空間の分離性に基づいて推定される。
このように、少ない情報モダリティの過度な強調は避けられる。
論文 参考訳(メタデータ) (2024-07-12T22:12:03Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Towards Good Practices for Missing Modality Robust Action Recognition [20.26021126604409]
本稿では,マルチモーダル動作認識のための一連のベストプラクティスを提案する。
トレーニング中にモデルを効果的に正規化する方法を研究する。
第二に、欠落したモダリティに対するロバスト性のための融合法について検討する。
第3に、モダリティ予測符号の欠如を学習する単純なモジュラーネットワークであるActionMAEを提案する。
論文 参考訳(メタデータ) (2022-11-25T06:10:57Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。