論文の概要: Incorporating Structured Representations into Pretrained Vision &
Language Models Using Scene Graphs
- arxiv url: http://arxiv.org/abs/2305.06343v2
- Date: Tue, 24 Oct 2023 21:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 21:02:26.115311
- Title: Incorporating Structured Representations into Pretrained Vision &
Language Models Using Scene Graphs
- Title(参考訳): シーングラフを用いた事前学習型視覚・言語モデルへの構造化表現の導入
- Authors: Roei Herzig, Alon Mendelson, Leonid Karlinsky, Assaf Arbelle, Rogerio
Feris, Trevor Darrell, Amir Globerson
- Abstract要約: シーングラフ(SG)から学習する場合、視覚と言語モデル(VLM)を改善することができることを示す。
視覚面では、SG情報を予測するために訓練されたイメージトランスフォーマーに特別な「SG成分」を組み込む一方、テキスト側では、SGを使ってきめ細かなキャプションを生成する。
提案手法は,ZS能力を軽度に低下させるだけで,複数のデータセット上でのVLMの性能を向上する。
- 参考スコア(独自算出の注目度): 79.64891686479213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision and language models (VLMs) have demonstrated remarkable zero-shot (ZS)
performance in a variety of tasks. However, recent works have shown that even
the best VLMs struggle to capture aspects of compositional scene understanding,
such as object attributes, relations, and action states. In contrast, obtaining
structured annotations, such as scene graphs (SGs), that could improve these
models is time-consuming and costly, and thus cannot be used on a large scale.
Here we ask whether small SG datasets can provide sufficient information for
enhancing structured understanding of pretrained VLMs. We show that it is
indeed possible to improve VLMs when learning from SGs by integrating
components that incorporate structured information into both visual and textual
representations. For the visual side, we incorporate a special "SG Component"
in the image transformer trained to predict SG information, while for the
textual side, we utilize SGs to generate fine-grained captions that highlight
different compositional aspects of the scene. Our method improves the
performance of several popular VLMs on multiple VL datasets with only a mild
degradation in ZS capabilities.
- Abstract(参考訳): 視覚と言語モデル(VLM)は、様々なタスクにおいて顕著なゼロショット(ZS)性能を示した。
しかし、近年の研究では、最高のVLMでさえ、オブジェクト属性、関係性、行動状態などの構成的シーン理解の側面を捉えるのに苦労していることが示されている。
対照的に、これらのモデルを改善することができるシーングラフ(SG)のような構造化アノテーションを得るためには、時間とコストがかかり、大規模では利用できない。
ここでは,SGデータセットが事前学習されたVLMの構造的理解を高めるのに十分な情報を提供できるかどうかを問う。
構造化情報を視覚表現とテキスト表現の両方に組み込むコンポーネントを統合することで,sgsから学習する際にvlmを改善することが可能であることを示す。
視覚面では、SG情報を予測するために訓練されたイメージトランスフォーマーに特別な「SGコンポーネント」を組み込む一方、テキスト側では、SGを使用して、シーンの異なる構成面をハイライトするきめ細かいキャプションを生成する。
提案手法は,ZS能力を軽度に低下させるだけで,複数のVLデータセット上でのVLMの性能を向上する。
関連論文リスト
- FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.15983300711355]
Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。
本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文 参考訳(メタデータ) (2024-11-23T02:20:32Z) - LLaVA-SG: Leveraging Scene Graphs as Visual Semantic Expression in Vision-Language Models [9.936172224069036]
大規模視覚言語モデル(VLM)におけるシーングラフ表現(SGE)モジュールについて紹介する。
SGEモジュールは、画像内の複雑な意味情報を抽出し、構造的に表現する。
SGEモジュールの統合は視覚言語タスクにおけるVLMの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-08-29T02:43:20Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。