論文の概要: APE: Aligning Pretrained Encoders to Quickly Learn Aligned Multimodal
Representations
- arxiv url: http://arxiv.org/abs/2210.03927v1
- Date: Sat, 8 Oct 2022 05:38:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 18:22:32.459093
- Title: APE: Aligning Pretrained Encoders to Quickly Learn Aligned Multimodal
Representations
- Title(参考訳): APE: 事前学習したエンコーダを素早く学習する
- Authors: Elan Rosenfeld, Preetum Nakkiran, Hadi Pouransari, Oncel Tuzel,
Fartash Faghri
- Abstract要約: 我々は、既存のユニモーダルエンコーダと、下流の関心事に関連するアライメントデータの慎重なキュレーションを活用している。
我々は, 既存のエンコーダを小さな補助関数で整列させる自然な手法について検討し, この手法は, 多くの設定において, 美術品の状態と競合する(あるいは優れる)ことを見出した。
- 参考スコア(独自算出の注目度): 21.651198216809608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in learning aligned multimodal representations have been
primarily driven by training large neural networks on massive, noisy
paired-modality datasets. In this work, we ask whether it is possible to
achieve similar results with substantially less training time and data. We
achieve this by taking advantage of existing pretrained unimodal encoders and
careful curation of alignment data relevant to the downstream task of interest.
We study a natural approach to aligning existing encoders via small auxiliary
functions, and we find that this method is competitive with (or outperforms)
state of the art in many settings while being less prone to overfitting, less
costly to train, and more robust to distribution shift. With a properly chosen
alignment distribution, our method surpasses prior state of the art for
ImageNet zero-shot classification on public data while using two orders of
magnitude less time and data and training 77% fewer parameters.
- Abstract(参考訳): 近年の学習指向型マルチモーダル表現の進歩は、大規模でノイズの多いペアモダリティデータセット上での大規模ニューラルネットワークのトレーニングが中心となっている。
本研究では、トレーニング時間とデータを大幅に減らして、同様の結果が得られるかどうかを問う。
我々は、既存の訓練済みの単調エンコーダと、下流の関心事に関連するアライメントデータの慎重なキュレーションを生かして、これを実現する。
我々は,既存のエンコーダを小さな補助関数で整列させる自然なアプローチについて検討し,この手法が多くの設定において,オーバーフィッティングやトレーニングコストの低減,分散シフトへのロバスト性に富む一方で,アートの状態(あるいはより優れた状態)と競合することを見出した。
適切に選択されたアライメント分布により,imagenet zero-shot分類の精度は,2桁の時間とデータを用いながら,前回より77%少ないパラメータをトレーニングした。
関連論文リスト
- DeepONet as a Multi-Operator Extrapolation Model: Distributed Pretraining with Physics-Informed Fine-Tuning [6.635683993472882]
マルチオペレータ学習を実現するためのファインチューニング手法を提案する。
本手法は,事前学習における各種演算子からのデータを分散学習と組み合わせ,物理インフォームド手法によりゼロショット微調整が可能となる。
論文 参考訳(メタデータ) (2024-11-11T18:58:46Z) - Optimal transfer protocol by incremental layer defrosting [66.76153955485584]
トランスファーラーニングは、限られた量のデータでモデルトレーニングを可能にする強力なツールである。
最も単純な転送学習プロトコルは、データリッチなソースタスクで事前訓練されたネットワークの機能抽出層を凍結する。
このプロトコルは、しばしば準最適であり、事前学習されたネットワークの小さな部分を凍結したままにしておくと、最大の性能向上が達成される可能性がある。
論文 参考訳(メタデータ) (2023-03-02T17:32:11Z) - Top-Tuning: a study on transfer learning for an efficient alternative to
fine tuning for image classification with fast kernel methods [12.325059377851485]
本稿では,事前学習した畳み込み特徴を高速なカーネル手法の入力として活用する,簡単なトランスファー学習手法を提案する。
トップチューニングアプローチは,1~2桁のトレーニング時間を桁違いに小さくすることで,微調整に対して同等の精度を提供することを示す。
論文 参考訳(メタデータ) (2022-09-16T13:46:59Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Multimodal Prototypical Networks for Few-shot Learning [20.100480009813953]
クロスモーダルな機能生成フレームワークは、数ショットのシナリオにおいて、人口密度の低い埋め込みスペースを強化するために使用される。
このような場合、近隣の分類は実現可能なアプローチであり、最先端のシングルモーダルおよびマルチモーダルの複数ショット学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-17T19:32:59Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。