論文の概要: Incorporating Structured Representations into Pretrained Vision &
Language Models Using Scene Graphs
- arxiv url: http://arxiv.org/abs/2305.06343v1
- Date: Wed, 10 May 2023 17:52:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 11:55:01.364991
- Title: Incorporating Structured Representations into Pretrained Vision &
Language Models Using Scene Graphs
- Title(参考訳): シーングラフを用いた事前学習型視覚・言語モデルへの構造化表現の導入
- Authors: Roei Herzig, Alon Mendelson, Leonid Karlinsky, Assaf Arbelle, Rogerio
Feris, Trevor Darrell, Amir Globerson
- Abstract要約: このようなデータを用いてビジョン・アンド・ランゲージ(VL)モデルを改善することは、特殊なモデルアーキテクチャと新しい訓練パラダイムを利用することで可能であることを示す。
シーンの異なる構成的側面を強調した様々なグラフ強化に基づいて,シーングラフの監視を行い,きめ細かなキャプションを生成する。
また、ゼロショット機能を維持しながら、グラフ予測タスクをよりよく学習できるSGトークンに特化して、新しい適応手法を設計する。
- 参考スコア(独自算出の注目度): 79.86963162199046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision and Language (VL) models have demonstrated remarkable zero-shot
performance in a variety of tasks. However, recent studies have shown that even
the best VL models struggle to capture aspects of scene understanding, such as
object attributes, relationships, and action states. In contrast, obtaining
structured annotations, e.g., scene graphs (SGs) that could improve these
models is time-consuming, costly, and tedious, and thus cannot be used on a
large scale. Here we ask, can small datasets containing SG annotations provide
sufficient information for enhancing structured understanding of VL models? We
show that it is indeed possible to improve VL models using such data by
utilizing a specialized model architecture and a new training paradigm. Our
approach captures structure-related information for both the visual and textual
encoders by directly supervising both components when learning from SG labels.
We use scene graph supervision to generate fine-grained captions based on
various graph augmentations highlighting different compositional aspects of the
scene, and to predict SG information using an open vocabulary approach by
adding special ``Adaptive SG tokens'' to the visual encoder. Moreover, we
design a new adaptation technique tailored specifically to the SG tokens that
allows better learning of the graph prediction task while still maintaining
zero-shot capabilities. Our model shows strong performance improvements on the
Winoground and VL-checklist datasets with only a mild degradation in zero-shot
performance.
- Abstract(参考訳): vision and language (vl) モデルは様々なタスクで顕著なゼロショット性能を示している。
しかし、最近の研究では、最高のVLモデルでさえ、オブジェクト属性、関係性、行動状態といったシーン理解の側面を捉えるのに苦労していることが示されている。
対照的に、これらのモデルを改善するための構造化されたアノテーション、例えばシーングラフ(sgs)を得ることは、時間がかかり、費用がかかり、退屈であり、大規模に使用できない。
ここでは、SGアノテーションを含む小さなデータセットは、VLモデルの構造化された理解を強化するのに十分な情報を提供できるだろうか?
本稿では,特殊なモデルアーキテクチャと新たなトレーニングパラダイムを利用することで,そのようなデータを用いてVLモデルを改善することができることを示す。
本手法は,sgラベルから学習する際に,両コンポーネントを直接監視することにより,視覚およびテキストエンコーダの構造関連情報をキャプチャする。
シーングラフの監視手法を用いて、シーンの異なる構成面を強調した様々なグラフ拡張に基づいて詳細なキャプションを生成するとともに、視覚エンコーダに特別な `<Adaptive SG tokens'' を追加することにより、オープン語彙アプローチを用いてSG情報を予測する。
さらに,ゼロショット機能を維持しつつ,グラフ予測タスクをよりよく学習できるSGトークンに特化して,新たな適応手法を設計する。
本モデルでは,winogroundおよびvl-checklistデータセットにおいて,ゼロショット性能がわずかに低下しただけで強い性能改善を示す。
関連論文リスト
- Q-GroundCAM: Quantifying Grounding in Vision Language Models via GradCAM [3.2688425993442696]
多くの調査研究により、最も優れた視覚と言語モデル(VLM)でさえ、構成シーン理解の側面を捉えるのに苦労していることが明らかになった。
VLMの最近の進歩には、モデルサイズとデータセットサイズの両方のスケールアップ、追加のトレーニング目標と監視レベルが含まれる。
本稿では,GradCAMアクティベーションを利用して,事前学習したVLMのグラウンドディング能力を厳格に評価する,新しい定量的メトリクススイートを提案する。
論文 参考訳(メタデータ) (2024-04-29T22:06:17Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative
Instructions [130.51646691263633]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。
SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。
本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:54:10Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。