論文の概要: Linear Spaces of Meanings: Compositional Structures in Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2302.14383v2
- Date: Mon, 27 Mar 2023 01:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 00:14:13.920413
- Title: Linear Spaces of Meanings: Compositional Structures in Vision-Language
Models
- Title(参考訳): 意味の線形空間:視覚言語モデルにおける構成構造
- Authors: Matthew Trager, Pramuditha Perera, Luca Zancato, Alessandro Achille,
Parminder Bhatia, Stefano Soatto
- Abstract要約: 事前学習された視覚言語モデル(VLM)からのデータ埋め込みにおける構成構造について検討する。
まず,幾何学的観点から構成構造を理解するための枠組みを提案する。
次に、これらの構造がVLM埋め込みの場合の確率論的に持つものを説明し、実際に発生する理由の直観を提供する。
- 参考スコア(独自算出の注目度): 133.75426143436567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate compositional structures in data embeddings from pre-trained
vision-language models (VLMs). Traditionally, compositionality has been
associated with algebraic operations on embeddings of words from a pre-existing
vocabulary. In contrast, we seek to approximate representations from an encoder
as combinations of a smaller set of vectors in the embedding space. These
vectors can be seen as "ideal words" for generating concepts directly within
the embedding space of the model. We first present a framework for
understanding compositional structures from a geometric perspective. We then
explain what these compositional structures entail probabilistically in the
case of VLM embeddings, providing intuitions for why they arise in practice.
Finally, we empirically explore these structures in CLIP's embeddings and we
evaluate their usefulness for solving different vision-language tasks such as
classification, debiasing, and retrieval. Our results show that simple linear
algebraic operations on embedding vectors can be used as compositional and
interpretable methods for regulating the behavior of VLMs.
- Abstract(参考訳): 事前学習された視覚言語モデル(vlms)からのデータ埋め込みにおける構成構造について検討する。
伝統的に、構成性は既存の語彙からの単語の埋め込みに関する代数的操作と関連付けられている。
対照的に、エンコーダからの表現を埋め込み空間内のより小さなベクトルの集合の組み合わせとして近似しようとする。
これらのベクトルは、モデルの埋め込み空間内で直接概念を生成するための「理想語」と見なすことができる。
まず,幾何学的観点から構成構造を理解するための枠組みを提案する。
次に、これらの構成構造がVLM埋め込みの場合の確率論的に持つものを説明し、それが実際に発生する理由の直感を与える。
最後に,これらの構造をCLIPの埋め込みで実証的に探索し,分類,デバイアス,検索などの視覚言語課題の解決に有用性を評価する。
この結果から, 埋め込みベクトル上の単純線形代数演算は, VLMの挙動を制御するための合成および解釈可能な手法として利用できることがわかった。
関連論文リスト
- Interpreting CLIP with Sparse Linear Concept Embeddings (SpLiCE) [23.993903128858832]
CLIPの潜在空間は高度に構造化されており、CLIP表現を基盤となるセマンティックコンポーネントに分解できることを示す。
そこで本研究では,CLIP表現を疎線形に変換する新しい手法であるスパース線形概念埋め込み(SpLiCE)を提案する。
論文 参考訳(メタデータ) (2024-02-16T00:04:36Z) - 3VL: using Trees to teach Vision & Language models compositional
concepts [45.718319397947056]
本稿では,Tree-augmented Vision-Language (3VL)モデルアーキテクチャとトレーニング手法を紹介する。
テキスト統一のための単純な手法であるAnchorが、ニュアンス要素をフィルタするためにどのように使用できるかを示す。
また、VLMマップ間の差分関連性比較を行うDiReにより、モデルの成功や失敗の説得力のある可視化を生成できることを示す。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - Representation Of Lexical Stylistic Features In Language Models'
Embedding Space [28.60690854046176]
これらのスタイリスティックな概念のそれぞれに対して,少数のシードペアのみからベクトル表現を導出できることが示されている。
5つのデータセットで実験を行い、静的な埋め込みがこれらの特徴を単語やフレーズのレベルでより正確にエンコードすることを発見した。
単語レベルでの文脈化表現の低い性能は、ベクトル空間の異方性に起因する。
論文 参考訳(メタデータ) (2023-05-29T23:44:26Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Lattice Representation Learning [6.427169570069738]
ユークリッド空間に埋め込まれた格子を利用する離散表現を学習するための理論とアルゴリズムを導入する。
格子表現は興味深い性質の組み合わせを持つ:a) 格子量子化を用いて明示的に計算できるが、導入したアイデアを使って効率的に学習することができる。
この記事では、トレーニングや推論時間に使用される式をリンクする新しい数学的結果や、2つの一般的なデータセットに対する実験的な検証など、最初の2つの特性を探索し、活用するための基盤の整備に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-24T16:05:11Z) - Multidirectional Associative Optimization of Function-Specific Word
Representations [86.87082468226387]
本稿では,関係する単語群間の関連を学習するためのニューラルネットワークフレームワークを提案する。
我々のモデルは結合関数固有の単語ベクトル空間を誘導し、例えば可塑性SVO合成のベクトルが近接して配置される。
このモデルは、共同空間においても単語群のメンバーシップに関する情報を保持し、SVO構造を前提とした複数のタスクに効果的に適用することができる。
論文 参考訳(メタデータ) (2020-05-11T17:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。