論文の概要: Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses
- arxiv url: http://arxiv.org/abs/2412.08110v2
- Date: Sat, 29 Mar 2025 19:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:31:44.803134
- Title: Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses
- Title(参考訳): シンタクティックツリーのバークアップ: シンタクティック損失によるVLMトレーニングの強化
- Authors: Jiayun Luo, Mir Rayat Imtiaz Hossain, Boyang Li, Leonid Sigal,
- Abstract要約: 視覚言語モデルは、画像領域と大規模トレーニングデータの単語を暗黙的に関連付けることを学習する。
テキストモダリティ内のリッチな意味的構造と構文的構造は、監督の源として見過ごされている。
階層的構造化学習(HIST)は、追加の人間のアノテーションを使わずに、空間的視覚言語アライメントを強化する。
- 参考スコア(独自算出の注目度): 31.85977999591524
- License:
- Abstract: Vision-Language Models (VLMs) implicitly learn to associate image regions with words from large-scale training data, demonstrating an emergent capability for grounding concepts without dense annotations[14,18,51]. However, the coarse-grained supervision from image-caption pairs is often insufficient to resolve ambiguities in object-concept correspondence, even with enormous data volume. Rich semantic and syntactic structures within the text modality have been overlooked as sources of supervision. Starting from contrastive architectures (BLIP and ALBEF) that show strong intrinsic grounding abilities, we propose HIerarchically STructured Learning (HIST). HIST enhances spatial vision-language alignment without using additional human annotations, by hierarchically decomposing captions into the constituent Subjects, Phrases, and Composite Phrases, and enforcing entailment relation between a parent and its children in the hierarchy. Specifically, we introduce two novel loss functions: (1) Subject Loss, which aligns image content with the subject of the corresponding phrase, acting as an entailment of standard contrastive/matching losses at the Phrase level; (2) Composition Loss, to balance attention across multiple objects. HIST is general, and can be applied to any VLM for which attention between vision and language can be computed. Compared to baseline VLMs, HIST achieves up to +9.8% improvement in visual grounding and +6.3% in multi-object referring segmentation. Surprisingly, the improved spatial grounding leads to improvements in other downstream VLM tasks: +1.1% in image-text retrieval, and +0.2% in visual question answering.
- Abstract(参考訳): VLM(Vision-Language Models)は,画像領域と大規模トレーニングデータからの単語を暗黙的に関連付けることを学習し,高密度アノテーションを使わずに概念を基底化するための創発的能力を示す[14,18,51]。
しかし、画像カプセル対からの粗いきめ細かい監督は、膨大なデータ量であっても、オブジェクト概念対応の曖昧さを解決するには不十分であることが多い。
テキストモダリティ内のリッチな意味的構造と構文的構造は、監督の源として見過ごされている。
強固有の基盤能力を示す対照的なアーキテクチャ (BLIP と ALBEF) から, 階層的構造化学習 (HIST) を提案する。
HISTは、ヒトのアノテーションを付加せずに空間的視覚言語アライメントを強化し、キャプションを構成主題、フラス、複合フラスに階層的に分解し、親とその子どもの階層的関係を強化する。
具体的には,(1) 画像内容と対応する語句の主題を整列する主観的損失,(2) 構成的損失,(2) 複数の対象にまたがる注意のバランスをとること,の2つの新しい損失関数を紹介する。
HISTは一般的に、視覚と言語の間の注意を計算できる任意のVLMに適用できる。
ベースラインのVLMと比較すると、HISTは視覚グラウンドの最大で+9.8%改善し、マルチオブジェクト参照セグメンテーションでは+6.3%向上した。
驚くべきことに、空間グラウンドの改善は、他の下流VLMタスクの改善につながっている: +1.1%の画像テキスト検索、+0.2%の視覚的質問応答である。
関連論文リスト
- Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs? [48.41029452721923]
視覚言語モデル(VLM)は、視覚的質問応答(VQA)や画像キャプションといったタスクにおいて印象的である。
画像に多段階推論を適用する能力は、モダリティの不均衡や脆さの知覚を引き起こす。
論文 参考訳(メタデータ) (2025-01-05T21:36:38Z) - Incorporating Feature Pyramid Tokenization and Open Vocabulary Semantic Segmentation [8.659766913542938]
我々は、すべての粒度の理解のために、統合された知覚的および意味的トークン圧縮について研究する。
本稿では,学習可能なコードブックによる多面的特徴のクラスタ化と多面的特徴の表現を目的とした特徴ピラミッドトークン化(PAT)を提案する。
実験の結果,PATはVLM特徴ピラミッドの意味的直感を増強することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:43:21Z) - COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training [49.2684130383925]
視覚言語事前学習のためのCOSMOS: CrOSs-modality Self-distillationを提案する。
新たなテキストクロッピング戦略とクロスアテンションモジュールを自己教師型学習フレームワークに統合する。
さまざまなゼロショットダウンストリームタスクにおいて、以前の強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-12-02T18:56:06Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Wings: Learning Multimodal LLMs without Text-only Forgetting [63.56085426442873]
Wingsは、テキストのみの対話とマルチモーダル理解の両方に優れる新しいMLLMである。
実験の結果、Wingsはテキストのみの問合せタスクと視覚的問合せタスクの両方において、MLLMのスケールが等しく優れていることが示された。
論文 参考訳(メタデータ) (2024-06-05T17:59:40Z) - Contrastive Vision-Language Alignment Makes Efficient Instruction
Learner [31.281236193979165]
本研究では,大規模言語モデル(LLM)を視覚言語命令追従モデルに拡張する作業について検討する。
既存の方法では、視覚アダプタを訓練して、前訓練された視覚変換器(ViT)とLLMの間の表現を、生成的な画像キャプション損失によって整列させるのが一般的である。
比較的および生成的アライメントの目的を適用し, ViT と LLM の表現を効果的に整合させる CG-VLM を提案する。
論文 参考訳(メタデータ) (2023-11-29T03:29:46Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。
本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。
CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文 参考訳(メタデータ) (2023-06-15T03:26:28Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。