論文の概要: Localization vs. Semantics: How Can Language Benefit Visual
Representation Learning?
- arxiv url: http://arxiv.org/abs/2212.00281v1
- Date: Thu, 1 Dec 2022 05:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 14:54:25.167980
- Title: Localization vs. Semantics: How Can Language Benefit Visual
Representation Learning?
- Title(参考訳): ローカライゼーション対セマンティクス: 言語はどのように視覚表現学習に適合するか?
- Authors: Zhuowan Li (1), Cihang Xie (2), Benjamin Van Durme (1), Alan Yuille
(1) ((1) Johns Hopkins University, (2) University of California, Santa Cruz)
- Abstract要約: 本稿では,言語が視覚表現学習にどのように役立つかを検討する。
視覚と言語のみのモデルと視覚のみのモデルを比較し、その視覚表現を幅広いタスクで探索する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the superior performance brought by vision-and-language pretraining,
it remains unclear whether learning with multi-modal data can help understand
each individual modality. In this work, we investigate how language can help
with visual representation learning from a probing perspective. Specifically,
we compare vision-and-language and vision-only models by probing their visual
representations on a broad range of tasks, in order to assess the quality of
the learned representations in a fine-grained manner. Interestingly, our
probing results suggest that vision-and-language models are better at label
prediction tasks like object and attribute prediction, while vision-only models
are stronger at dense prediction tasks that require more localized information.
With further analysis using detailed metrics, our study suggests that language
helps vision models learn better semantics, but not localization. Code is
released at https://github.com/Lizw14/visual_probing.
- Abstract(参考訳): 視覚と言語による事前学習がもたらす優れたパフォーマンスにもかかわらず、マルチモーダルデータによる学習が個々のモダリティを理解するのに役立つかどうかは不明だ。
本研究では,言語が探索的視点から視覚表現学習にどう役立つかを検討する。
具体的には、学習した表現の質をきめ細かい方法で評価するために、幅広いタスクで視覚表現を探索することにより、視覚と言語のみのモデルと比較する。
興味深いことに、我々の調査結果は、視覚と言語モデルの方が、オブジェクトや属性予測のようなラベル予測タスクに優れていることを示唆している。
詳細なメトリクスを用いたさらなる分析により、言語は視覚モデルによるセマンティクスの学習に役立ち、ローカライゼーションは行わないことが示唆された。
コードはhttps://github.com/lizw14/visual_probingでリリースされる。
関連論文リスト
- Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。
我々は、競合する言語と視覚言語モデルを総合的に評価する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Is Multimodal Vision Supervision Beneficial to Language? [2.216702991322677]
ビジョン(イメージとビデオ)事前トレーニングは、マルチモーダルタスクで最先端の結果を得た最近の一般的なパラダイムである。
我々は,これらのモデルのスタンドアロンテキストエンコーダの言語表現性能と,視覚監督を通して学習したテキストエンコーダの言語表現性能を比較した。
論文 参考訳(メタデータ) (2023-02-10T02:22:44Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。