論文の概要: Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.17142v1
- Date: Fri, 21 Mar 2025 13:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:53.928997
- Title: Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models
- Title(参考訳): テキストに限らず:視覚言語モデルにおける視覚表現の構成性を探る
- Authors: Davide Berasi, Matteo Farina, Massimiliano Mancini, Elisa Ricci, Nicola Strisciuglio,
- Abstract要約: ビジョンランゲージモデルは、テキストと画像の共有機能空間を学習し、異なるモードの入力の比較を可能にする。
画像領域における構成性について検討し、合成特性の分析は視覚データのノイズと空間性によって挑戦される。
本稿では,GDE(Geodesically Decomposable Embeddings)と呼ばれるフレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.525531111141717
- License:
- Abstract: Vision-Language Models (VLMs) learn a shared feature space for text and images, enabling the comparison of inputs of different modalities. While prior works demonstrated that VLMs organize natural language representations into regular structures encoding composite meanings, it remains unclear if compositional patterns also emerge in the visual embedding space. In this work, we investigate compositionality in the image domain, where the analysis of compositional properties is challenged by noise and sparsity of visual data. We address these problems and propose a framework, called Geodesically Decomposable Embeddings (GDE), that approximates image representations with geometry-aware compositional structures in the latent space. We demonstrate that visual embeddings of pre-trained VLMs exhibit a compositional arrangement, and evaluate the effectiveness of this property in the tasks of compositional classification and group robustness. GDE achieves stronger performance in compositional classification compared to its counterpart method that assumes linear geometry of the latent space. Notably, it is particularly effective for group robustness, where we achieve higher results than task-specific solutions. Our results indicate that VLMs can automatically develop a human-like form of compositional reasoning in the visual domain, making their underlying processes more interpretable. Code is available at https://github.com/BerasiDavide/vlm_image_compositionality.
- Abstract(参考訳): VLM(Vision-Language Models)は、テキストと画像の共有機能空間を学習し、異なるモダリティの入力の比較を可能にする。
以前の研究では、VLMが自然言語表現を合成意味をコードする正規構造に整理することを示したが、合成パターンが視覚的な埋め込み空間にも現れるかどうかは不明である。
本研究では、画像領域における構成性について検討し、合成特性の分析は、視覚データのノイズと空間性によって挑戦される。
我々はこれらの問題に対処し、静止空間における幾何学的構成構造と画像表現を近似するGeodesically Decomposable Embeddings (GDE) というフレームワークを提案する。
予め学習したVLMの視覚的埋め込みは,構成的配置を示し,構成的分類やグループロバストネスのタスクにおいて,この特性の有効性を評価する。
GDEは、潜在空間の線形幾何を仮定する他の手法と比較して、構成分類においてより強い性能を達成する。
特に、タスク固有のソリューションよりも高い結果が得られるようなグループ堅牢性には特に有効です。
以上の結果から,VLMは視覚領域において人間の様の合成推論を自動生成し,その基盤となるプロセスをより解釈可能であることが示唆された。
コードはhttps://github.com/BerasiDavide/vlm_image_compositionalityで公開されている。
関連論文リスト
- Causal Graphical Models for Vision-Language Compositional Understanding [36.24185263818946]
提案手法は, 最先端の合成手法を大きなマージンで大幅に上回っていることを示す。
さらに、はるかに大きなデータセットを使用してトレーニングされたメソッドよりも改善されている。
論文 参考訳(メタデータ) (2024-12-12T15:22:03Z) - Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models [19.054780489639793]
本稿では,プログレッシブ・マルチグラニュラー・ビジョン・ランゲージアライメント(PromViL)を紹介する。
提案手法は, 単純な概念から複雑な概念まで, 多モードアライメントの階層構造を構築する。
テキスト記述と対応する視覚領域を段階的に整合させることで,低レベルからの文脈情報を活用して高レベルな推論を行う。
論文 参考訳(メタデータ) (2024-12-11T06:21:33Z) - FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.15983300711355]
Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。
本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文 参考訳(メタデータ) (2024-11-23T02:20:32Z) - MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models [85.10375181040436]
本稿では,視覚言語モデルを包括的かつ正確に評価する新しい人間アノテーションベンチマークMMCOMPOSITIONを提案する。
GPT-4oのコンポジション性は,最も優れたオープンソースモデルよりも劣ることがわかった。
論文 参考訳(メタデータ) (2024-10-13T05:35:09Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Linear Spaces of Meanings: Compositional Structures in Vision-Language
Models [110.00434385712786]
事前学習された視覚言語モデル(VLM)からのデータ埋め込みにおける構成構造について検討する。
まず,幾何学的観点から構成構造を理解するための枠組みを提案する。
次に、これらの構造がVLM埋め込みの場合の確率論的に持つものを説明し、実際に発生する理由の直観を提供する。
論文 参考訳(メタデータ) (2023-02-28T08:11:56Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Exploring Set Similarity for Dense Self-supervised Representation
Learning [96.35286140203407]
本研究では,高密度自己教師型表現学習のためのtextbfset textbfsimilarity (SetSim) を提案する。
ピクセルワイドの類似性学習をセットワイドに一般化し,よりセマンティックな情報や構造的な情報を含むため,ロバスト性を向上させる。
具体的には、ビューの注意的特徴に頼って対応する集合を定め、不適切な対応を引き起こす可能性のあるノイズの多い背景をフィルタリングする。
論文 参考訳(メタデータ) (2021-07-19T09:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。