論文の概要: Incorporating Structured Representations into Pretrained Vision &
Language Models Using Scene Graphs
- arxiv url: http://arxiv.org/abs/2305.06343v1
- Date: Wed, 10 May 2023 17:52:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 11:55:01.364991
- Title: Incorporating Structured Representations into Pretrained Vision &
Language Models Using Scene Graphs
- Title(参考訳): シーングラフを用いた事前学習型視覚・言語モデルへの構造化表現の導入
- Authors: Roei Herzig, Alon Mendelson, Leonid Karlinsky, Assaf Arbelle, Rogerio
Feris, Trevor Darrell, Amir Globerson
- Abstract要約: このようなデータを用いてビジョン・アンド・ランゲージ(VL)モデルを改善することは、特殊なモデルアーキテクチャと新しい訓練パラダイムを利用することで可能であることを示す。
シーンの異なる構成的側面を強調した様々なグラフ強化に基づいて,シーングラフの監視を行い,きめ細かなキャプションを生成する。
また、ゼロショット機能を維持しながら、グラフ予測タスクをよりよく学習できるSGトークンに特化して、新しい適応手法を設計する。
- 参考スコア(独自算出の注目度): 79.86963162199046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision and Language (VL) models have demonstrated remarkable zero-shot
performance in a variety of tasks. However, recent studies have shown that even
the best VL models struggle to capture aspects of scene understanding, such as
object attributes, relationships, and action states. In contrast, obtaining
structured annotations, e.g., scene graphs (SGs) that could improve these
models is time-consuming, costly, and tedious, and thus cannot be used on a
large scale. Here we ask, can small datasets containing SG annotations provide
sufficient information for enhancing structured understanding of VL models? We
show that it is indeed possible to improve VL models using such data by
utilizing a specialized model architecture and a new training paradigm. Our
approach captures structure-related information for both the visual and textual
encoders by directly supervising both components when learning from SG labels.
We use scene graph supervision to generate fine-grained captions based on
various graph augmentations highlighting different compositional aspects of the
scene, and to predict SG information using an open vocabulary approach by
adding special ``Adaptive SG tokens'' to the visual encoder. Moreover, we
design a new adaptation technique tailored specifically to the SG tokens that
allows better learning of the graph prediction task while still maintaining
zero-shot capabilities. Our model shows strong performance improvements on the
Winoground and VL-checklist datasets with only a mild degradation in zero-shot
performance.
- Abstract(参考訳): vision and language (vl) モデルは様々なタスクで顕著なゼロショット性能を示している。
しかし、最近の研究では、最高のVLモデルでさえ、オブジェクト属性、関係性、行動状態といったシーン理解の側面を捉えるのに苦労していることが示されている。
対照的に、これらのモデルを改善するための構造化されたアノテーション、例えばシーングラフ(sgs)を得ることは、時間がかかり、費用がかかり、退屈であり、大規模に使用できない。
ここでは、SGアノテーションを含む小さなデータセットは、VLモデルの構造化された理解を強化するのに十分な情報を提供できるだろうか?
本稿では,特殊なモデルアーキテクチャと新たなトレーニングパラダイムを利用することで,そのようなデータを用いてVLモデルを改善することができることを示す。
本手法は,sgラベルから学習する際に,両コンポーネントを直接監視することにより,視覚およびテキストエンコーダの構造関連情報をキャプチャする。
シーングラフの監視手法を用いて、シーンの異なる構成面を強調した様々なグラフ拡張に基づいて詳細なキャプションを生成するとともに、視覚エンコーダに特別な `<Adaptive SG tokens'' を追加することにより、オープン語彙アプローチを用いてSG情報を予測する。
さらに,ゼロショット機能を維持しつつ,グラフ予測タスクをよりよく学習できるSGトークンに特化して,新たな適応手法を設計する。
本モデルでは,winogroundおよびvl-checklistデータセットにおいて,ゼロショット性能がわずかに低下しただけで強い性能改善を示す。
関連論文リスト
- FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.15983300711355]
Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。
本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文 参考訳(メタデータ) (2024-11-23T02:20:32Z) - LLaVA-SG: Leveraging Scene Graphs as Visual Semantic Expression in Vision-Language Models [9.936172224069036]
大規模視覚言語モデル(VLM)におけるシーングラフ表現(SGE)モジュールについて紹介する。
SGEモジュールは、画像内の複雑な意味情報を抽出し、構造的に表現する。
SGEモジュールの統合は視覚言語タスクにおけるVLMの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-08-29T02:43:20Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。