論文の概要: Teaching Structured Vision&Language Concepts to Vision&Language Models
- arxiv url: http://arxiv.org/abs/2211.11733v1
- Date: Mon, 21 Nov 2022 18:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:37:08.179476
- Title: Teaching Structured Vision&Language Concepts to Vision&Language Models
- Title(参考訳): 視覚・言語モデルへの構造的視覚・言語概念の教育
- Authors: Sivan Doveh, Assaf Arbelle, Sivan Harary, Rameswar Panda, Roei Herzig,
Eli Schwartz, Donghyun Kim, Raja Giryes, Rogerio Feris, Shimon Ullman, Leonid
Karlinsky
- Abstract要約: SVLC(Structured Vision&Language Concepts)の概念について紹介する。
SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。
本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
- 参考スコア(独自算出の注目度): 46.344585368641006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision and Language (VL) models have demonstrated remarkable zero-shot
performance in a variety of tasks. However, some aspects of complex language
understanding still remain a challenge. We introduce the collective notion of
Structured Vision&Language Concepts (SVLC) which includes object attributes,
relations, and states which are present in the text and visible in the image.
Recent studies have shown that even the best VL models struggle with SVLC. A
possible way of fixing this issue is by collecting dedicated datasets for
teaching each SVLC type, yet this might be expensive and time-consuming.
Instead, we propose a more elegant data-driven approach for enhancing VL
models' understanding of SVLCs that makes more effective use of existing VL
pre-training datasets and does not require any additional data. While automatic
understanding of image structure still remains largely unsolved, language
structure is much better modeled and understood, allowing for its effective
utilization in teaching VL models. In this paper, we propose various techniques
based on language structure understanding that can be used to manipulate the
textual part of off-the-shelf paired VL datasets. VL models trained with the
updated data exhibit a significant improvement of up to 15% in their SVLC
understanding with only a mild degradation in their zero-shot capabilities both
when training from scratch or fine-tuning a pre-trained model.
- Abstract(参考訳): vision and language (vl) モデルは様々なタスクで顕著なゼロショット性能を示している。
しかし、複雑な言語理解のいくつかの側面は依然として課題である。
本稿では、テキスト中に存在し、画像で見えるオブジェクト属性、関係、状態を含む構造化視覚言語概念(svlc)の集団概念を紹介する。
近年の研究では、最高のVLモデルでさえSVLCと競合することが示されている。
この問題を解決する方法は、各svlcタイプを教える専用のデータセットを収集することですが、これは高価で時間がかかります。
代わりに、既存のVL事前学習データセットをより効果的に活用し、追加データを必要としないVLモデルのSVLC理解を強化するための、よりエレガントなデータ駆動アプローチを提案する。
画像構造の自動理解はいまだほとんど未解決であるが、言語構造はより良くモデル化され理解されており、VLモデルを効果的に活用することができる。
本稿では,市販VLデータセットのテキスト部分を操作可能な言語構造理解に基づく様々な手法を提案する。
更新されたデータでトレーニングされたVLモデルは、ゼロショット能力の軽微な低下と、事前訓練されたモデルの微調整の両方で、SVLC理解の最大15%の改善を示す。
関連論文リスト
- In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - Harnessing Vision-Language Pretrained Models with Temporal-Aware Adaptation for Referring Video Object Segmentation [34.37450315995176]
現在の参照ビデオオブジェクト(RVOS)メソッドは通常、バックボーンとして独立して事前訓練された視覚と言語モデルを使用する。
画素レベルの予測に事前学習した表現を適応させる時間認識型プロンプトチューニング手法を提案する。
提案手法は最先端のアルゴリズムに対して良好に動作し,強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-17T08:14:22Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - DeepSeek-VL: Towards Real-World Vision-Language Understanding [24.57011093316788]
本稿では、実世界のビジョンと言語理解アプリケーションのためのオープンソースのVision-Language(VL)モデルであるDeepSeek-VLを紹介する。
当社のアプローチは,3つの重要な側面に基づいて構成されています。
実際のユーザシナリオからユースケース分類を作成し、インストラクションチューニングデータセットを構築します。
論文 参考訳(メタデータ) (2024-03-08T18:46:00Z) - MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文 参考訳(メタデータ) (2023-06-02T07:21:03Z) - Going Beyond Nouns With Vision & Language Models Using Synthetic Data [43.87754926411406]
大規模な事前学習型ビジョン・アンド・ランゲージ(VL)モデルは、多くのアプリケーションで顕著な性能を示している。
最近の研究でこれらのモデルの根本的な弱点が明らかになった。
このような欠点を克服するためのモデルを教えるために、純粋に合成されたデータがどの程度活用できるかを調査する。
論文 参考訳(メタデータ) (2023-03-30T17:57:43Z) - ConStruct-VL: Data-Free Continual Structured VL Concepts Learning [57.86651057895222]
本稿では,Continuous Data-Free Structured VL Concepts Learning (ConStruct-VL)ベンチマークを紹介する。
本稿では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するAdrial Pseudo-Replay (APR) の新たなアプローチによるデータフリー手法を提案する。
このアプローチは、いくつかのレベルのエクスペリエンス再生に適合しながら、すべてのデータフリーメソッドを最大7%上回ります。
論文 参考訳(メタデータ) (2022-11-17T18:57:03Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。