論文の概要: Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses
- arxiv url: http://arxiv.org/abs/2412.08110v1
- Date: Wed, 11 Dec 2024 05:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:27.717639
- Title: Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses
- Title(参考訳): シンタクティックツリーのバークアップ: シンタクティック損失によるVLMトレーニングの強化
- Authors: Jiayun Luo, Mir Rayat Imtiaz Hossain, Boyang Li, Leonid Sigal,
- Abstract要約: VLM(Vision-Language Models)は、様々なタスク(画像テキスト検索、視覚的質問応答など)において強力なパフォーマンスを実現している。
本稿では,付加的な監督を伴わずに VLM トレーニングを強化する階層的構造化学習 (HIST) を提案する。
- 参考スコア(独自算出の注目度): 31.85977999591524
- License:
- Abstract: Vision-Language Models (VLMs) achieved strong performance on a variety of tasks (e.g., image-text retrieval, visual question answering). However, most VLMs rely on coarse-grained image-caption pairs for alignment, relying on data volume to resolve ambiguities and ground linguistic concepts in images. The richer semantic and syntactic structure within text is largely overlooked. To address this, we propose HIerarchically STructured Learning (HIST) that enhances VLM training without any additional supervision, by hierarchically decomposing captions into the constituent Subject, Noun Phrases, and Composite Phrases. Entailment between these constituent components allows us to formulate additional regularization constraints on the VLM attention maps. Specifically, we introduce two novel loss functions: (1) Subject Loss, which aligns image content with the subject of corresponding phrase, acting as an entailment of standard contrastive/matching losses at the Phrase level; (2) Addition Loss, to balance attention across multiple objects. HIST is general, and can be applied to any VLM for which attention between vision and language can be computed; we illustrate its efficacy on BLIP and ALBEF. HIST outperforms baseline VLMs, achieving up to +9.8% improvement in visual grounding, +6.3% in multi-object referring segmentation, +1.1% in image-text retrieval, and +0.2% in visual question answering, underscoring the value of structuring learning in VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は、様々なタスク(画像テキスト検索、視覚的質問応答など)において、強力なパフォーマンスを実現している。
しかしながら、ほとんどのVLMは、画像のあいまいさと基底言語概念を解決するために、データボリュームに頼って、アライメントのために粗い粒度のイメージキャプションペアに依存している。
テキスト内のよりリッチなセマンティクスと構文構造はほとんど見過ごされている。
そこで本稿では,字幕を構成対象,名詞句,複合句に階層的に分解することで,付加的な監督なしにVLM訓練を促進する階層的構造化学習(HIST)を提案する。
これらの構成成分間の包含により、VLMアテンションマップ上で追加の正規化制約を定式化することができる。
具体的には,(1) 画像内容と対応する語句の主題を整列する主観的損失関数,(2) 付加的損失関数を導入し,複数の対象にまたがる注意のバランスをとる。
HISTは汎用的であり,視覚と言語間の注意を計算可能な任意のVLMに適用することができる。
HIST はベースライン VLM を上回り、視覚的グラウンド化の+9.8%、多目的参照セグメンテーションの+6.3%、画像テキスト検索の+1.1%、視覚的質問応答の+0.2% を達成し、VLM における構造化学習の価値を評価している。
関連論文リスト
- Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Wings: Learning Multimodal LLMs without Text-only Forgetting [63.56085426442873]
Wingsは、テキストのみの対話とマルチモーダル理解の両方に優れる新しいMLLMである。
実験の結果、Wingsはテキストのみの問合せタスクと視覚的問合せタスクの両方において、MLLMのスケールが等しく優れていることが示された。
論文 参考訳(メタデータ) (2024-06-05T17:59:40Z) - 3VL: using Trees to teach Vision & Language models compositional
concepts [45.718319397947056]
本稿では,Tree-augmented Vision-Language (3VL)モデルアーキテクチャとトレーニング手法を紹介する。
テキスト統一のための単純な手法であるAnchorが、ニュアンス要素をフィルタするためにどのように使用できるかを示す。
また、VLMマップ間の差分関連性比較を行うDiReにより、モデルの成功や失敗の説得力のある可視化を生成できることを示す。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - Contrastive Vision-Language Alignment Makes Efficient Instruction
Learner [31.281236193979165]
本研究では,大規模言語モデル(LLM)を視覚言語命令追従モデルに拡張する作業について検討する。
既存の方法では、視覚アダプタを訓練して、前訓練された視覚変換器(ViT)とLLMの間の表現を、生成的な画像キャプション損失によって整列させるのが一般的である。
比較的および生成的アライメントの目的を適用し, ViT と LLM の表現を効果的に整合させる CG-VLM を提案する。
論文 参考訳(メタデータ) (2023-11-29T03:29:46Z) - Exploring Part-Informed Visual-Language Learning for Person
Re-Identification [40.725052076983516]
本稿では,視覚に基づく人物再識別作業において,部分的インフォームド言語による細粒度視覚的特徴の強化を提案する。
当社の$pi$-VLは、4つの一般的なReIDベンチマークで過去の最先端よりも大幅に改善されています。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。
本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。
CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文 参考訳(メタデータ) (2023-06-15T03:26:28Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。