論文の概要: Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models
- arxiv url: http://arxiv.org/abs/2212.00281v2
- Date: Mon, 29 Jan 2024 22:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 19:51:03.620553
- Title: Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models
- Title(参考訳): ローカライゼーション vs. セマンティクス: ユニモーダルおよびマルチモーダルモデルにおける視覚的表現
- Authors: Zhuowan Li, Cihang Xie, Benjamin Van Durme, Alan Yuille
- Abstract要約: 既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
- 参考スコア(独自算出の注目度): 57.08925810659545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the impressive advancements achieved through vision-and-language
pretraining, it remains unclear whether this joint learning paradigm can help
understand each individual modality. In this work, we conduct a comparative
analysis of the visual representations in existing vision-and-language models
and vision-only models by probing a broad range of tasks, aiming to assess the
quality of the learned representations in a nuanced manner. Interestingly, our
empirical observations suggest that vision-and-language models are better at
label prediction tasks like object and attribute prediction, while vision-only
models are stronger at dense prediction tasks that require more localized
information. We hope our study sheds light on the role of language in visual
learning, and serves as an empirical guide for various pretrained models. Code
will be released at https://github.com/Lizw14/visual_probing
- Abstract(参考訳): 視覚と言語による事前学習によって達成された印象的な進歩にもかかわらず、この共同学習パラダイムが個々のモダリティを理解するのに役立つかどうかは不明だ。
本研究では,既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行い,学習した表現の質をニュアンス的に評価することを目的とした。
興味深いことに、我々の経験的観察は、視覚と言語モデルの方が、オブジェクトや属性予測のようなラベル予測タスクに優れていることを示唆している。
私たちの研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの経験的ガイドとして役立つことを願っています。
コードはhttps://github.com/Lizw14/visual_probingでリリースされる。
関連論文リスト
- Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。
我々は、競合する言語と視覚言語モデルを総合的に評価する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Is Multimodal Vision Supervision Beneficial to Language? [2.216702991322677]
ビジョン(イメージとビデオ)事前トレーニングは、マルチモーダルタスクで最先端の結果を得た最近の一般的なパラダイムである。
我々は,これらのモデルのスタンドアロンテキストエンコーダの言語表現性能と,視覚監督を通して学習したテキストエンコーダの言語表現性能を比較した。
論文 参考訳(メタデータ) (2023-02-10T02:22:44Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。