論文の概要: CLiMB: A Continual Learning Benchmark for Vision-and-Language Tasks
- arxiv url: http://arxiv.org/abs/2206.09059v1
- Date: Sat, 18 Jun 2022 00:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-26 17:15:34.694883
- Title: CLiMB: A Continual Learning Benchmark for Vision-and-Language Tasks
- Title(参考訳): climb: 視覚言語タスクの継続的学習ベンチマーク
- Authors: Tejas Srinivasan, Ting-Yun Chang, Leticia Leonor Pinto Alva, Georgios
Chochlakis, Mohammad Rostami, Jesse Thomason
- Abstract要約: 本稿では,マルチモーダルなタスクを視覚と言語で学習する際の課題を研究するためのベンチマークであるCLiMBを提案する。
CLiMBには、いくつかのCLアルゴリズムと修正されたViLT(Vision-Language Transformer)モデルの実装が含まれている。
共通CL手法は,マルチモーダルタスク学習における忘れの軽減に有効であるが,タスク間の知識伝達は不可能である。
- 参考スコア(独自算出の注目度): 13.57652349702715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art vision-and-language models are evaluated on tasks
either individually or in a multi-task setting, overlooking the challenges of
continually learning (CL) tasks as they arrive. Existing CL benchmarks have
facilitated research on task adaptation and mitigating "catastrophic
forgetting", but are limited to vision-only and language-only tasks. We present
CLiMB, a benchmark to study the challenge of learning multimodal tasks in a CL
setting, and to systematically evaluate how upstream continual learning can
rapidly generalize to new multimodal and unimodal tasks. CLiMB includes
implementations of several CL algorithms and a modified Vision-Language
Transformer (ViLT) model that can be deployed on both multimodal and unimodal
tasks. We find that common CL methods can help mitigate forgetting during
multimodal task learning, but do not enable cross-task knowledge transfer. We
envision that CLiMB will facilitate research on a new class of CL algorithms
for this challenging multimodal setting.
- Abstract(参考訳): 現在の最先端のビジョン・アンド・ランゲージモデルは、個別またはマルチタスク設定のタスクで評価され、到着するたびに継続的な学習(CL)タスクの課題を見越す。
既存のclベンチマークではタスク適応の研究や"破滅的な忘れ方"の緩和が進められているが、視覚のみのタスクと言語のみのタスクに限定されている。
本稿では,cl環境でのマルチモーダルタスクの学習の課題を検討するためのベンチマークとして,上流連続学習が新しいマルチモーダルタスクやユニモーダルタスクに迅速に一般化できるかを体系的に評価する。
CLiMBには、複数のCLアルゴリズムの実装と、マルチモーダルタスクとアンモーダルタスクの両方にデプロイ可能なViLTモデルの変更が含まれている。
共通CL手法は,マルチモーダルタスク学習における忘れの軽減に有効であるが,タスク間の知識伝達は不可能である。
我々は、CLiMBが、この挑戦的なマルチモーダル設定のための新しいCLアルゴリズムの研究を促進することを期待する。
関連論文リスト
- DEEP-ICL: Definition-Enriched Experts for Language Model In-Context
Learning [61.85871109164743]
大規模言語モデル(LLM)におけるパラメータの多さは、コンテキスト内学習(ICL)の能力を促進すると長い間考えられてきた。
ICL のための新しいタスク定義拡張 ExPert Ensembling Method である DEEP-ICL を紹介する。
ICLの改善はモデルのサイズに直接依存するのではなく、基本的にはタスク定義やタスク誘導学習の理解に起因している、と我々は主張する。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - Dynamic Transformer Architecture for Continual Learning of Multimodal
Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。
連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。
本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T03:03:30Z) - MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-task Learning [29.88567810099265]
マルチタスク学習は複数の相関タスクを同時に訓練するように設計されている。
この課題に対処するために、デコーダフリーの視覚言語モデルCLIPを統合する。
CLIPのためのマルチモーダルアライメント・プロンプト(MmAP)を提案する。
論文 参考訳(メタデータ) (2023-12-14T03:33:02Z) - When does In-context Learning Fall Short and Why? A Study on
Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。
ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。
我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文 参考訳(メタデータ) (2023-11-15T14:26:30Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - POP: Prompt Of Prompts for Continual Learning [59.15888651733645]
継続的な学習(CL)は、破滅的な忘れをせずに新しい概念を学習する人間の能力を模倣することを目的としている。
POP学習を用いた基礎モデルでは,古典的なCL手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-14T02:09:26Z) - Task-Attentive Transformer Architecture for Continual Learning of
Vision-and-Language Tasks Using Knowledge Distillation [18.345183818638475]
連続学習(CL)は、逐次到着するタスク間で知識伝達を可能にすることで、治療の役割を果たす。
バイモーダル・ビジョン・アンド・ランゲージ・タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。
私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多数のタスクにスケーラブルに学習するものです。
論文 参考訳(メタデータ) (2023-03-25T10:16:53Z) - From MNIST to ImageNet and Back: Benchmarking Continual Curriculum
Learning [9.104068727716294]
継続学習(CL)は、機械学習研究で最も有望なトレンドの1つである。
6つの画像データセットから複数の異種タスクを含む2つの新しいCLベンチマークを導入する。
さらに、タスクが複雑化と減少の順序で表されるように、ベンチマークを構造化します。
論文 参考訳(メタデータ) (2023-03-16T18:11:19Z) - Multitask Vision-Language Prompt Tuning [103.5967011236282]
マルチタスク視覚言語プロンプトチューニング(MV)を提案する。
MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。
20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T18:41:44Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。