論文の概要: Incorporating Structured Representations into Pretrained Vision &
Language Models Using Scene Graphs
- arxiv url: http://arxiv.org/abs/2305.06343v2
- Date: Tue, 24 Oct 2023 21:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 21:02:26.115311
- Title: Incorporating Structured Representations into Pretrained Vision &
Language Models Using Scene Graphs
- Title(参考訳): シーングラフを用いた事前学習型視覚・言語モデルへの構造化表現の導入
- Authors: Roei Herzig, Alon Mendelson, Leonid Karlinsky, Assaf Arbelle, Rogerio
Feris, Trevor Darrell, Amir Globerson
- Abstract要約: シーングラフ(SG)から学習する場合、視覚と言語モデル(VLM)を改善することができることを示す。
視覚面では、SG情報を予測するために訓練されたイメージトランスフォーマーに特別な「SG成分」を組み込む一方、テキスト側では、SGを使ってきめ細かなキャプションを生成する。
提案手法は,ZS能力を軽度に低下させるだけで,複数のデータセット上でのVLMの性能を向上する。
- 参考スコア(独自算出の注目度): 79.64891686479213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision and language models (VLMs) have demonstrated remarkable zero-shot (ZS)
performance in a variety of tasks. However, recent works have shown that even
the best VLMs struggle to capture aspects of compositional scene understanding,
such as object attributes, relations, and action states. In contrast, obtaining
structured annotations, such as scene graphs (SGs), that could improve these
models is time-consuming and costly, and thus cannot be used on a large scale.
Here we ask whether small SG datasets can provide sufficient information for
enhancing structured understanding of pretrained VLMs. We show that it is
indeed possible to improve VLMs when learning from SGs by integrating
components that incorporate structured information into both visual and textual
representations. For the visual side, we incorporate a special "SG Component"
in the image transformer trained to predict SG information, while for the
textual side, we utilize SGs to generate fine-grained captions that highlight
different compositional aspects of the scene. Our method improves the
performance of several popular VLMs on multiple VL datasets with only a mild
degradation in ZS capabilities.
- Abstract(参考訳): 視覚と言語モデル(VLM)は、様々なタスクにおいて顕著なゼロショット(ZS)性能を示した。
しかし、近年の研究では、最高のVLMでさえ、オブジェクト属性、関係性、行動状態などの構成的シーン理解の側面を捉えるのに苦労していることが示されている。
対照的に、これらのモデルを改善することができるシーングラフ(SG)のような構造化アノテーションを得るためには、時間とコストがかかり、大規模では利用できない。
ここでは,SGデータセットが事前学習されたVLMの構造的理解を高めるのに十分な情報を提供できるかどうかを問う。
構造化情報を視覚表現とテキスト表現の両方に組み込むコンポーネントを統合することで,sgsから学習する際にvlmを改善することが可能であることを示す。
視覚面では、SG情報を予測するために訓練されたイメージトランスフォーマーに特別な「SGコンポーネント」を組み込む一方、テキスト側では、SGを使用して、シーンの異なる構成面をハイライトするきめ細かいキャプションを生成する。
提案手法は,ZS能力を軽度に低下させるだけで,複数のVLデータセット上でのVLMの性能を向上する。
関連論文リスト
- Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative
Instructions [130.51646691263633]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。
SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。
本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:54:10Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。