論文の概要: CLiMB: A Continual Learning Benchmark for Vision-and-Language Tasks
- arxiv url: http://arxiv.org/abs/2206.09059v1
- Date: Sat, 18 Jun 2022 00:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-26 17:15:34.694883
- Title: CLiMB: A Continual Learning Benchmark for Vision-and-Language Tasks
- Title(参考訳): climb: 視覚言語タスクの継続的学習ベンチマーク
- Authors: Tejas Srinivasan, Ting-Yun Chang, Leticia Leonor Pinto Alva, Georgios
Chochlakis, Mohammad Rostami, Jesse Thomason
- Abstract要約: 本稿では,マルチモーダルなタスクを視覚と言語で学習する際の課題を研究するためのベンチマークであるCLiMBを提案する。
CLiMBには、いくつかのCLアルゴリズムと修正されたViLT(Vision-Language Transformer)モデルの実装が含まれている。
共通CL手法は,マルチモーダルタスク学習における忘れの軽減に有効であるが,タスク間の知識伝達は不可能である。
- 参考スコア(独自算出の注目度): 13.57652349702715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art vision-and-language models are evaluated on tasks
either individually or in a multi-task setting, overlooking the challenges of
continually learning (CL) tasks as they arrive. Existing CL benchmarks have
facilitated research on task adaptation and mitigating "catastrophic
forgetting", but are limited to vision-only and language-only tasks. We present
CLiMB, a benchmark to study the challenge of learning multimodal tasks in a CL
setting, and to systematically evaluate how upstream continual learning can
rapidly generalize to new multimodal and unimodal tasks. CLiMB includes
implementations of several CL algorithms and a modified Vision-Language
Transformer (ViLT) model that can be deployed on both multimodal and unimodal
tasks. We find that common CL methods can help mitigate forgetting during
multimodal task learning, but do not enable cross-task knowledge transfer. We
envision that CLiMB will facilitate research on a new class of CL algorithms
for this challenging multimodal setting.
- Abstract(参考訳): 現在の最先端のビジョン・アンド・ランゲージモデルは、個別またはマルチタスク設定のタスクで評価され、到着するたびに継続的な学習(CL)タスクの課題を見越す。
既存のclベンチマークではタスク適応の研究や"破滅的な忘れ方"の緩和が進められているが、視覚のみのタスクと言語のみのタスクに限定されている。
本稿では,cl環境でのマルチモーダルタスクの学習の課題を検討するためのベンチマークとして,上流連続学習が新しいマルチモーダルタスクやユニモーダルタスクに迅速に一般化できるかを体系的に評価する。
CLiMBには、複数のCLアルゴリズムの実装と、マルチモーダルタスクとアンモーダルタスクの両方にデプロイ可能なViLTモデルの変更が含まれている。
共通CL手法は,マルチモーダルタスク学習における忘れの軽減に有効であるが,タスク間の知識伝達は不可能である。
我々は、CLiMBが、この挑戦的なマルチモーダル設定のための新しいCLアルゴリズムの研究を促進することを期待する。
関連論文リスト
- Separable Mixture of Low-Rank Adaptation for Continual Visual Instruction Tuning [16.873306091966693]
視覚的インストラクションチューニングにより、大規模な言語モデル(MLLM)は、言語ベースのインストラクションとしてフレーミングすることで、幅広い視覚タスクを処理できる。
CVITでは,MLLMが学習した視覚的理解を忘れると同時に,学習能力の低下を経験する。
本稿では2つの異なるモジュール間の分離可能なルーティングを利用するSMOLoRAフレームワークについて紹介する。
このデュアルルーチン設計により、両方のドメインに特別な適応が可能となり、性能を改善しながら、忘れることを防ぐことができる。
論文 参考訳(メタデータ) (2024-11-21T09:00:15Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning [12.450293825734313]
大規模言語モデル(LLM)は、創発的な文脈内学習(ICL)を示すことで有名である。
本研究では,マルチモーダルインコンテキスト学習のためのベンチマークVL-ICL Benchを提案する。
我々は,このベンチマークスイートに対して最先端のVLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-03-19T21:31:56Z) - Dynamic Transformer Architecture for Continual Learning of Multimodal
Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。
連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。
本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T03:03:30Z) - MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-task Learning [29.88567810099265]
マルチタスク学習は複数の相関タスクを同時に訓練するように設計されている。
この課題に対処するために、デコーダフリーの視覚言語モデルCLIPを統合する。
CLIPのためのマルチモーダルアライメント・プロンプト(MmAP)を提案する。
論文 参考訳(メタデータ) (2023-12-14T03:33:02Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - POP: Prompt Of Prompts for Continual Learning [59.15888651733645]
継続的な学習(CL)は、破滅的な忘れをせずに新しい概念を学習する人間の能力を模倣することを目的としている。
POP学習を用いた基礎モデルでは,古典的なCL手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-14T02:09:26Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。