論文の概要: Task-Attentive Transformer Architecture for Continual Learning of
Vision-and-Language Tasks Using Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2303.14423v1
- Date: Sat, 25 Mar 2023 10:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:53:52.693949
- Title: Task-Attentive Transformer Architecture for Continual Learning of
Vision-and-Language Tasks Using Knowledge Distillation
- Title(参考訳): 知識蒸留を用いた視覚言語タスクの連続学習のためのタスク対応トランスフォーマアーキテクチャ
- Authors: Yuliang Cai, Jesse Thomason, Mohammad Rostami
- Abstract要約: 連続学習(CL)は、逐次到着するタスク間で知識伝達を可能にすることで、治療の役割を果たす。
バイモーダル・ビジョン・アンド・ランゲージ・タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。
私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多数のタスクにスケーラブルに学習するものです。
- 参考スコア(独自算出の注目度): 18.345183818638475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The size and the computational load of fine-tuning large-scale pre-trained
neural network are becoming two major obstacles in adopting machine learning in
many applications. Continual learning (CL) can serve as a remedy through
enabling knowledge-transfer across sequentially arriving tasks which relaxes
the need to fine-tune all network weights from scratch. However, existing CL
algorithms primarily consider learning unimodal vision-only or language-only
tasks. We develop a transformer-based CL architecture for learning bimodal
vision-and-language tasks based on increasing the number of the learnable
parameters dynamically and using knowledge distillation. The new additional
parameters are used to specialize the network for each task. Our approach
enables sharing information between the tasks while addressing the challenge of
catastrophic forgetting. Our approach is scalable learning to a large number of
tasks because it requires little memory and time overhead. Our model reaches
state-of-the-art performance on challenging vision-and-language tasks.
- Abstract(参考訳): 大規模事前学習ニューラルネットワークのサイズと計算負荷は、多くのアプリケーションで機械学習を採用する上で、2つの大きな障害となっている。
連続学習(CL)は、スクラッチから全てのネットワーク重みを微調整する必要性を緩和する逐次到着タスク間の知識伝達を可能にすることで、救済の役割を果たす。
しかし、既存のclアルゴリズムは、主にユニモーダルビジョンのみまたは言語のみのタスクを学習することを考慮している。
学習可能なパラメータの数を動的に増加させ,知識蒸留を用いてバイモーダルな視覚・言語タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。
新たなパラメータは、各タスクのネットワークを専門化するために使用される。
我々のアプローチは、破滅的な忘れ込みの課題に対処しながら、タスク間での情報共有を可能にする。
私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多くのタスクへのスケーラブルな学習です。
我々のモデルは、視覚と言語に挑戦するタスクにおいて最先端のパフォーマンスに達する。
関連論文リスト
- Dynamic Transformer Architecture for Continual Learning of Multimodal
Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。
連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。
本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T03:03:30Z) - Negotiated Representations to Prevent Forgetting in Machine Learning
Applications [0.0]
破滅的な忘れは、機械学習の分野で重要な課題である。
本稿では,機械学習アプリケーションにおける破滅的忘れを防止する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-11-30T22:43:50Z) - Few-shot Multimodal Multitask Multilingual Learning [0.0]
我々は、事前学習された視覚と言語モデルを適用することで、マルチモーダルマルチタスク(FM3)設定のための数ショット学習を提案する。
FM3は、ビジョンと言語領域における最も顕著なタスクと、それらの交差点を学習する。
論文 参考訳(メタデータ) (2023-02-19T03:48:46Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - NeurAll: Towards a Unified Visual Perception Model for Automated Driving [8.49826472556323]
本稿では,複数のタスクを同時に学習するためのマルチタスクネットワーク設計を提案する。
自動運転システムの主なボトルネックは、デプロイメントハードウェアで利用可能な限られた処理能力である。
論文 参考訳(メタデータ) (2019-02-10T12:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。