論文の概要: 3VL: using Trees to teach Vision & Language models compositional
concepts
- arxiv url: http://arxiv.org/abs/2312.17345v1
- Date: Thu, 28 Dec 2023 20:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 14:51:44.792056
- Title: 3VL: using Trees to teach Vision & Language models compositional
concepts
- Title(参考訳): 3VL:木を使って視覚と言語モデルの構成概念を教える
- Authors: Nir Yellinek, Leonid Karlinsky and Raja Giryes
- Abstract要約: 本稿では,Tree-augmented Vision-Language (3VL)モデルアーキテクチャとトレーニング手法を紹介する。
テキスト統一のための単純な手法であるAnchorが、ニュアンス要素をフィルタするためにどのように使用できるかを示す。
また、VLMマップ間の差分関連性比較を行うDiReにより、モデルの成功や失敗の説得力のある可視化を生成できることを示す。
- 参考スコア(独自算出の注目度): 45.718319397947056
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language models (VLMs) have proved effective at aligning image and
text representations, producing superior zero-shot results when transferred to
many downstream tasks. However, these representations suffer some key
shortcomings in Compositional Language Concepts (CLC) understanding such as
recognizing objects' attributes, states, and relations between different
objects. Moreover, VLMs typically have poor interpretability, making it
challenging to debug and mitigate compositional-understanding failures. In this
work, we introduce the Tree-augmented Vision-Language (3VL) model architecture
and training technique accompanied by our proposed Anchor inference method and
Differential Relevance (DiRe) interpretability tool. By expanding the text of
an arbitrary image-text pair into a hierarchical tree structure using language
analysis tools, 3VL allows inducing this structure into the visual
representation learned by the model, enhancing its interpretability and
compositional reasoning. Additionally, we show how Anchor, a simple technique
for text unification, can be employed to filter nuisance factors while
increasing CLC understanding performance, e.g., on the fundamental VL-Checklist
benchmark. We also exhibit how DiRe, which performs a differential comparison
between VLM relevancy maps, enables us to generate compelling visualizations of
the reasons for a model's success or failure.
- Abstract(参考訳): 視覚言語モデル(vlms)は、画像とテキストの表現の調整に有効であり、多くの下流タスクに転送した場合に優れたゼロショット結果を生成する。
しかしながら、これらの表現は、オブジェクトの属性、状態、異なるオブジェクト間の関係を認識するなど、構成言語概念(CLC)の理解においていくつかの重要な欠点を負う。
さらに、VLMは一般的に解釈性に乏しいため、構成ミスのデバッグや軽減が難しい。
本稿では,木に表現された視覚言語(3vl)モデルアーキテクチャと学習手法を紹介し,提案するアンカー推論法とディファレンシャル・アソシエーション(dire)解釈ツールについて述べる。
任意の画像テキストペアのテキストを言語解析ツールを用いて階層木構造に拡張することにより、3VLは、モデルによって学習された視覚表現にこの構造を誘導し、解釈可能性と構成的推論を向上させる。
さらに,テキスト統一のための単純な手法であるAnchorを用いて,基本的なVL-Checklistベンチマークにおいて,CLC理解性能を高めながらニュアンス要素をフィルタする方法を示す。
また、VLM関連性マップの差分比較を行うDiReによって、モデルの成功や失敗の理由に関する説得力のある視覚化を生成できることを示す。
関連論文リスト
- ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - Weak-to-Strong Compositional Learning from Generative Models for Language-based Object Detection [19.610781457283966]
本稿では,言語に基づく物体検出において,視覚言語モデル(VL)の構成的理解を高める新しい手法を提案する。
我々のフレームワークは、画像ドメインとテキストドメインの両方で、密にペア化された正と負の三つ子(画像、テキスト記述、バウンディングボックス)を生成する。
本稿では,合成三重項の複雑な記述における意味や構造を発見するための,新しいコントラスト学習形式を提案する。
論文 参考訳(メタデータ) (2024-07-21T23:43:24Z) - Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Text encoders bottleneck compositionality in contrastive vision-language
models [76.2406963762722]
単一ベクトルのテキスト表現からキャプションを再構築することを目的としたテキストのみのリカバリプローブを訓練する。
CLIPのテキストエンコーダは、より構成的な入力では不十分であることがわかった。
結果は、テキストのみの回復性は、構成因子をモデル化するのに必要である(しかし十分ではない)ことを示唆している。
論文 参考訳(メタデータ) (2023-05-24T08:48:44Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene
Graphs with Language Structures via Dependency Relationships [17.930724926012264]
教師なしの方法で共同視覚言語構造を誘導することを目的とした新しいタスクを導入する。
私たちの目標は、視覚的なシーングラフと言語依存ツリーをシームレスにブリッジすることにあります。
そこで我々は, 粗い構造を創出する自動アライメント手法を提案する。
論文 参考訳(メタデータ) (2022-03-27T09:51:34Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。