論文の概要: Adding simple structure at inference improves Vision-Language Compositionality
- arxiv url: http://arxiv.org/abs/2506.09691v1
- Date: Wed, 11 Jun 2025 13:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.984491
- Title: Adding simple structure at inference improves Vision-Language Compositionality
- Title(参考訳): 推論時に単純な構造を加えることで視覚・言語構成性が向上する
- Authors: Imanol Miranda, Ander Salaberria, Eneko Agirre, Gorka Azkune,
- Abstract要約: 本稿では,イメージとキャプションが与えられた場合,イメージを小さな作物に分割する,推論時に単純な構造を加えることを提案する。
提案手法は,評価された視覚言語モデルの性能をトレーニングなしで継続的に改善する。
- 参考スコア(独自算出の注目度): 15.785274903236663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dual encoder Vision-Language Models (VLM) such as CLIP are widely used for image-text retrieval tasks. However, those models struggle with compositionality, showing a bag-of-words-like behavior that limits their retrieval performance. Many different training approaches have been proposed to improve the vision-language compositionality capabilities of those models. In comparison, inference-time techniques have received little attention. In this paper, we propose to add simple structure at inference, where, given an image and a caption: i) we divide the image into different smaller crops, ii) we extract text segments, capturing objects, attributes and relations, iii) using a VLM, we find the image crops that better align with text segments obtaining matches, and iv) we compute the final image-text similarity aggregating the individual similarities of the matches. Based on various popular dual encoder VLMs, we evaluate our approach in controlled and natural datasets for VL compositionality. We find that our approach consistently improves the performance of evaluated VLMs without any training, which shows the potential of inference-time techniques. The results are especially good for attribute-object binding as shown in the controlled dataset. As a result of an extensive analysis: i) we show that processing image crops is actually essential for the observed gains in performance, and ii) we identify specific areas to further improve inference-time approaches.
- Abstract(参考訳): CLIPのようなデュアルエンコーダビジョンランゲージモデル(VLM)は画像テキスト検索タスクに広く利用されている。
しかし、これらのモデルは構成性に苦慮し、単語の袋のような振る舞いを示し、検索性能を制限している。
これらのモデルの視覚言語合成能力を改善するために、多くの異なるトレーニング手法が提案されている。
対照的に、推論時間技術はほとんど注目されていない。
本稿では,画像とキャプションが与えられた場合の推論時に簡単な構造を加えることを提案する。
一 イメージを小作に分けること
二 テキストセグメントを抽出し、対象物、属性及び関係をキャプチャする。
三 VLM を用いて、一致を得るテキストセグメントと整合した画像作物を見つけ、
iv) 一致の個人類似性を集約した最終画像-テキスト類似性を計算する。
本研究は,VL合成のための制御および自然なデータセットにおいて,多種多様なデュアルエンコーダVLMのアプローチを評価する。
提案手法は,トレーニングなしで評価されたVLMの性能を継続的に改善し,推論時の手法の可能性を示す。
結果は、制御されたデータセットで示されているように、属性オブジェクトのバインディングに特に適しています。
広範な分析の結果、
一 画像作物の加工は、実際に、観察された性能向上に欠かせないものであることを示し、
二 推論時アプローチをさらに改善するための特定領域を特定すること。
関連論文リスト
- Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models [26.525531111141717]
ビジョンランゲージモデルは、テキストと画像の共有機能空間を学習し、異なるモードの入力の比較を可能にする。
画像領域における構成性について検討し、合成特性の分析は視覚データのノイズと空間性によって挑戦される。
本稿では,GDE(Geodesically Decomposable Embeddings)と呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T13:46:53Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。