論文の概要: Perceptual Grouping in Contrastive Vision-Language Models
- arxiv url: http://arxiv.org/abs/2210.09996v3
- Date: Tue, 22 Aug 2023 01:40:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 21:33:04.747753
- Title: Perceptual Grouping in Contrastive Vision-Language Models
- Title(参考訳): コントラスト視覚言語モデルにおける知覚的グループ化
- Authors: Kanchana Ranasinghe, Brandon McKinzie, Sachin Ravi, Yinfei Yang,
Alexander Toshev, Jonathon Shlens
- Abstract要約: 画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
- 参考スコア(独自算出の注目度): 59.1542019031645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in zero-shot image recognition suggest that vision-language
models learn generic visual representations with a high degree of semantic
information that may be arbitrarily probed with natural language phrases.
Understanding an image, however, is not just about understanding what content
resides within an image, but importantly, where that content resides. In this
work we examine how well vision-language models are able to understand where
objects reside within an image and group together visually related parts of the
imagery. We demonstrate how contemporary vision and language representation
learning models based on contrastive losses and large web-based data capture
limited object localization information. We propose a minimal set of
modifications that results in models that uniquely learn both semantic and
spatial information. We measure this performance in terms of zero-shot image
recognition, unsupervised bottom-up and top-down semantic segmentations, as
well as robustness analyses. We find that the resulting model achieves
state-of-the-art results in terms of unsupervised segmentation, and demonstrate
that the learned representations are uniquely robust to spurious correlations
in datasets designed to probe the causal behavior of vision models.
- Abstract(参考訳): ゼロショット画像認識の最近の進歩は、視覚言語モデルが自然言語句で任意に探索される可能性のある高い意味情報で汎用的な視覚表現を学ぶことを示唆している。
しかし、画像を理解することは、画像内のコンテンツが何であるかを理解するだけでなく、そのコンテンツがどこにあるかを理解することにある。
本研究では,物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について検討する。
本稿では,コントラスト損失と大規模 web ベースデータに基づく現代的ビジョンと言語表現学習モデルについて述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
我々はこの性能を、ゼロショット画像認識、教師なしボトムアップ、トップダウンセマンティックセグメンテーション、ロバストネス解析の観点から測定する。
得られたモデルが教師なしセグメンテーション(unsupervised segmentation)の観点で最先端の結果を達成し、学習された表現が視覚モデルの因果行動を研究するために設計されたデータセットにおいて、突発的な相関に一意に堅牢であることを示す。
関連論文リスト
- Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。
著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文 参考訳(メタデータ) (2024-10-09T17:55:02Z) - Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations [5.065947993017157]
本研究では、画像復号化機械学習モデルを用いて、視覚言語データセットをキュレートする手法を提案する。
約960万の視覚言語対のデータセットをVHR画像で収集しました。
結果として得られたモデルは、公開可能なビジョン言語データセットを活用できないものよりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T06:36:08Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。
一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。
実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2021-08-13T10:43:20Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。