論文の概要: TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models
of Different Modalities
- arxiv url: http://arxiv.org/abs/2212.06385v1
- Date: Tue, 13 Dec 2022 05:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:29:11.515593
- Title: TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models
of Different Modalities
- Title(参考訳): Tencent Pretrain: さまざまなモードの事前トレーニングモデルのためのスケーラブルで柔軟なツールキット
- Authors: Zhe Zhao and Yudong Li and Cheng Hou and Jing Zhao and Rong Tian and
Weijie Liu and Yiren Chen and Ningyuan Sun and Haoyan Liu and Weiquan Mao and
Han Guo and Weigang Guo and Taiqiang Wu and Tao Zhu and Wenhang Shi and Chen
Chen and Shan Huang and Sihong Chen and Liqun Liu and Feifei Li and Xiaoshuai
Chen and Xingwu Sun and Zhanhui Kang and Xiaoyong Du and Linlin Shen and
Kimmo Yan
- Abstract要約: TencentPretrainは、異なるモードの事前トレーニングモデルをサポートするツールキットである。
モジュラーデザインにより、既存のトレーニング済みモデルを効率的に再現したり、新しいモデルを構築することができる。
- 参考スコア(独自算出の注目度): 33.30499896951368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the success of pre-training in text domain has been fully extended
to vision, audio, and cross-modal scenarios. The proposed pre-training models
of different modalities are showing a rising trend of homogeneity in their
model structures, which brings the opportunity to implement different
pre-training models within a uniform framework. In this paper, we present
TencentPretrain, a toolkit supporting pre-training models of different
modalities. The core feature of TencentPretrain is the modular design. The
toolkit uniformly divides pre-training models into 5 components: embedding,
encoder, target embedding, decoder, and target. As almost all of common modules
are provided in each component, users can choose the desired modules from
different components to build a complete pre-training model. The modular design
enables users to efficiently reproduce existing pre-training models or build
brand-new one. We test the toolkit on text, vision, and audio benchmarks and
show that it can match the performance of the original implementations.
- Abstract(参考訳): 近年、テキストドメインでの事前トレーニングの成功は、視覚、音声、およびクロスモーダルシナリオに完全に拡張されている。
異なるモダリティの事前学習モデルの提案は、モデル構造における均質性の上昇傾向を示しており、一様フレームワーク内で異なる事前学習モデルを実装する機会を与えている。
本稿では,さまざまなモダリティの事前学習モデルをサポートするツールキットtencentpretrainを提案する。
TencentPretrainの中核となる機能はモジュラーデザインである。
ツールキットはトレーニング済みモデルを、埋め込み、エンコーダ、ターゲット埋め込み、デコーダ、ターゲットの5つのコンポーネントに一様に分割する。
共通モジュールのほとんどすべてが各コンポーネントで提供されているため、ユーザはさまざまなコンポーネントから希望するモジュールを選択して、完全な事前トレーニングモデルを構築することができる。
モジュラーデザインにより、既存のトレーニング済みモデルを効率的に再現したり、新しいモデルを構築することができる。
私たちは、テキスト、視覚、オーディオベンチマークでツールキットをテストし、オリジナルの実装のパフォーマンスにマッチできることを示します。
関連論文リスト
- POA: Pre-training Once for Models of All Sizes [33.72644336390202]
我々はPOA(Pre-Treating Once for All)と呼ばれる新しい三枝型自己教師型トレーニングフレームワークを提案する。
我々のアプローチは、革新的な弾性的な学生分岐を近代的な自己蒸留パラダイムに導入する。
ViT、Swin Transformer、ResNetのバックボーンを使って最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-08-02T06:13:29Z) - SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks [30.069353400127046]
我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。
SortedNetは、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にする。
一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
論文 参考訳(メタデータ) (2023-09-01T05:12:25Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - Universal Semi-supervised Model Adaptation via Collaborative Consistency
Training [92.52892510093037]
我々は、Universal Semi-supervised Model Adaptation (USMA)と呼ばれる現実的で挑戦的なドメイン適応問題を導入する。
本稿では,2つのモデル間の予測整合性を規則化する協調的整合性トレーニングフレームワークを提案する。
実験により,いくつかのベンチマークデータセットにおける本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-07-07T08:19:40Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - Feature embedding in click-through rate prediction [0.0]
クリックスルー率予測プロセスを改善するために,機能埋め込みの課題に取り組む。
本稿では,埋め込みスケーリング,FM埋め込み,埋め込みエンコーディング,NN埋め込み,埋め込み再重み付けモジュールの5つの異なる機能埋め込みモジュールを提案する。
提案する組込みモジュールは, トレーニング時間を大幅に増加させることなく, 予測性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2022-09-20T05:48:30Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。