論文の概要: ConStruct-VL: Data-Free Continual Structured VL Concepts Learning
- arxiv url: http://arxiv.org/abs/2211.09790v2
- Date: Thu, 30 Mar 2023 17:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 17:42:04.124084
- Title: ConStruct-VL: Data-Free Continual Structured VL Concepts Learning
- Title(参考訳): コンストラクトVL:データフリー連続構造VL概念学習
- Authors: James Seale Smith, Paola Cascante-Bonilla, Assaf Arbelle, Donghyun
Kim, Rameswar Panda, David Cox, Diyi Yang, Zsolt Kira, Rogerio Feris, Leonid
Karlinsky
- Abstract要約: 本稿では,Continuous Data-Free Structured VL Concepts Learning (ConStruct-VL)ベンチマークを紹介する。
本稿では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するAdrial Pseudo-Replay (APR) の新たなアプローチによるデータフリー手法を提案する。
このアプローチは、いくつかのレベルのエクスペリエンス再生に適合しながら、すべてのデータフリーメソッドを最大7%上回ります。
- 参考スコア(独自算出の注目度): 57.86651057895222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large-scale pre-trained Vision-and-Language (VL) foundation models
have demonstrated remarkable capabilities in many zero-shot downstream tasks,
achieving competitive results for recognizing objects defined by as little as
short text prompts. However, it has also been shown that VL models are still
brittle in Structured VL Concept (SVLC) reasoning, such as the ability to
recognize object attributes, states, and inter-object relations. This leads to
reasoning mistakes, which need to be corrected as they occur by teaching VL
models the missing SVLC skills; often this must be done using private data
where the issue was found, which naturally leads to a data-free continual (no
task-id) VL learning setting. In this work, we introduce the first Continual
Data-Free Structured VL Concepts Learning (ConStruct-VL) benchmark and show it
is challenging for many existing data-free CL strategies. We, therefore,
propose a data-free method comprised of a new approach of Adversarial
Pseudo-Replay (APR) which generates adversarial reminders of past tasks from
past task models. To use this method efficiently, we also propose a continual
parameter-efficient Layered-LoRA (LaLo) neural architecture allowing
no-memory-cost access to all past models at train time. We show this approach
outperforms all data-free methods by as much as ~7% while even matching some
levels of experience-replay (prohibitive for applications where data-privacy
must be preserved). Our code is publicly available at
https://github.com/jamessealesmith/ConStruct-VL
- Abstract(参考訳): 近年,大規模事前学習型視覚言語(vl)基礎モデルが,ゼロショットダウンストリームタスクの多くにおいて顕著な性能を示し,短いテキストプロンプトで定義した物体を識別する競争的結果を達成している。
しかしながら、VLモデルは、オブジェクト属性、状態、オブジェクト間の関係を認識する能力など、構造化VL概念(SVLC)の推論においてまだ脆弱であることも示されている。
これは、vlモデルに不足しているsvlcスキルを教えることによって生じる誤りの推論につながる。多くの場合、問題が発生したプライベートデータを使用して行う必要があり、自然にデータフリーの連続的な(タスクidなし)vl学習設定につながる。
本稿では,データフリーな構造化vl概念学習(construct-vl)ベンチマーク(continual data-free structured vl concepts learning)について紹介する。
そこで本研究では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するadversarial pseudo-replay (apr) の新たなアプローチによるデータフリー手法を提案する。
また,この手法を効率的に利用するために,連続パラメータ効率の高いLaLo(LaLo)ニューラルアーキテクチャを提案する。
このアプローチは、いくつかのレベルのエクスペリエンス再生(データプライバシを保存する必要があるアプリケーションに対しては禁止)に対応しながら、すべてのデータフリーメソッドを最大7%上回ります。
私たちのコードはhttps://github.com/jamessealesmith/ConStruct-VLで公開されています。
関連論文リスト
- Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Membership Inference Attacks against Large Vision-Language Models [40.996912464828696]
大規模視覚言語モデル(VLLM)は、様々なアプリケーションシナリオにわたるマルチモーダルタスクを処理するための有望な能力を示す。
彼らの出現は、プライベート写真や医療記録などの機密情報を含む可能性があることを考えると、重要なデータセキュリティ上の懸念も引き起こす。
VLLMで不適切な使用データを検出することは、致命的かつ未解決な問題である。
論文 参考訳(メタデータ) (2024-11-05T08:35:08Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Going Beyond Nouns With Vision & Language Models Using Synthetic Data [43.87754926411406]
大規模な事前学習型ビジョン・アンド・ランゲージ(VL)モデルは、多くのアプリケーションで顕著な性能を示している。
最近の研究でこれらのモデルの根本的な弱点が明らかになった。
このような欠点を克服するためのモデルを教えるために、純粋に合成されたデータがどの程度活用できるかを調査する。
論文 参考訳(メタデータ) (2023-03-30T17:57:43Z) - Improving Commonsense in Vision-Language Models via Knowledge Graph
Riddles [83.41551911845157]
本稿では,近年普及している視覚言語モデル(VL)のコモンセンス能力の解析と改善に焦点をあてる。
我々は、よりスケーラブルな戦略、すなわち、CommonsensE機能のためのkNowledgeグラフ線形化によるデータ拡張を提案する(DANCE)。
より優れたコモンセンス評価のために,検索に基づく最初のコモンセンス診断ベンチマークを提案する。
論文 参考訳(メタデータ) (2022-11-29T18:59:59Z) - Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。
SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。
本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:54:10Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。