Fugu-MT 論文翻訳(概要): Incorporating Structured Representations into Pretrained Vision & Language Models Using Scene Graphs

論文の概要: Incorporating Structured Representations into Pretrained Vision & Language Models Using Scene Graphs

arxiv url: http://arxiv.org/abs/2305.06343v2
Date: Tue, 24 Oct 2023 21:40:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 21:02:26.115311
Title: Incorporating Structured Representations into Pretrained Vision & Language Models Using Scene Graphs
Title（参考訳）: シーングラフを用いた事前学習型視覚・言語モデルへの構造化表現の導入
Authors: Roei Herzig, Alon Mendelson, Leonid Karlinsky, Assaf Arbelle, Rogerio Feris, Trevor Darrell, Amir Globerson
Abstract要約: シーングラフ(SG)から学習する場合、視覚と言語モデル(VLM)を改善することができることを示す。視覚面では、SG情報を予測するために訓練されたイメージトランスフォーマーに特別な「SG成分」を組み込む一方、テキスト側では、SGを使ってきめ細かなキャプションを生成する。提案手法は,ZS能力を軽度に低下させるだけで,複数のデータセット上でのVLMの性能を向上する。
参考スコア（独自算出の注目度）: 79.64891686479213
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision and language models (VLMs) have demonstrated remarkable zero-shot (ZS) performance in a variety of tasks. However, recent works have shown that even the best VLMs struggle to capture aspects of compositional scene understanding, such as object attributes, relations, and action states. In contrast, obtaining structured annotations, such as scene graphs (SGs), that could improve these models is time-consuming and costly, and thus cannot be used on a large scale. Here we ask whether small SG datasets can provide sufficient information for enhancing structured understanding of pretrained VLMs. We show that it is indeed possible to improve VLMs when learning from SGs by integrating components that incorporate structured information into both visual and textual representations. For the visual side, we incorporate a special "SG Component" in the image transformer trained to predict SG information, while for the textual side, we utilize SGs to generate fine-grained captions that highlight different compositional aspects of the scene. Our method improves the performance of several popular VLMs on multiple VL datasets with only a mild degradation in ZS capabilities.
Abstract（参考訳）: 視覚と言語モデル(VLM)は、様々なタスクにおいて顕著なゼロショット(ZS)性能を示した。しかし、近年の研究では、最高のVLMでさえ、オブジェクト属性、関係性、行動状態などの構成的シーン理解の側面を捉えるのに苦労していることが示されている。対照的に、これらのモデルを改善することができるシーングラフ(SG)のような構造化アノテーションを得るためには、時間とコストがかかり、大規模では利用できない。ここでは,SGデータセットが事前学習されたVLMの構造的理解を高めるのに十分な情報を提供できるかどうかを問う。構造化情報を視覚表現とテキスト表現の両方に組み込むコンポーネントを統合することで,sgsから学習する際にvlmを改善することが可能であることを示す。視覚面では、SG情報を予測するために訓練されたイメージトランスフォーマーに特別な「SGコンポーネント」を組み込む一方、テキスト側では、SGを使用して、シーンの異なる構成面をハイライトするきめ細かいキャプションを生成する。提案手法は,ZS能力を軽度に低下させるだけで,複数のVLデータセット上でのVLMの性能を向上する。

関連論文リスト

Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。 RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文参考訳（メタデータ） (2024-12-30T13:16:08Z)
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.15983300711355]
Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文参考訳（メタデータ） (2024-11-23T02:20:32Z)
LLaVA-SG: Leveraging Scene Graphs as Visual Semantic Expression in Vision-Language Models [9.936172224069036]
大規模視覚言語モデル(VLM)におけるシーングラフ表現(SGE)モジュールについて紹介する。 SGEモジュールは、画像内の複雑な意味情報を抽出し、構造的に表現する。 SGEモジュールの統合は視覚言語タスクにおけるVLMの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-08-29T02:43:20Z)
Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文参考訳（メタデータ） (2024-08-13T08:26:32Z)
In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文参考訳（メタデータ） (2024-07-22T09:03:29Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文参考訳（メタデータ） (2024-06-27T15:23:36Z)
Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。 DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文参考訳（メタデータ） (2024-02-29T10:17:27Z)
Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。 VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文参考訳（メタデータ） (2023-08-08T09:32:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。