論文の概要: Visual Commonsense in Pretrained Unimodal and Multimodal Models
- arxiv url: http://arxiv.org/abs/2205.01850v1
- Date: Wed, 4 May 2022 02:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 02:32:55.808803
- Title: Visual Commonsense in Pretrained Unimodal and Multimodal Models
- Title(参考訳): 事前学習されたユニモーダルおよびマルチモーダルモデルにおける視覚コモンセンス
- Authors: Chenyu Zhang, Benjamin Van Durme, Zhuowan Li, Elias Stengel-Eskin
- Abstract要約: 本研究では,Unimodal(言語のみ)モデルとMultimodal(画像と言語)モデルが視覚的に有意な属性をどの程度捉えているかを検討する。
5000人以上の被験者に対して5つのプロパティタイプ(色、形状、材料、サイズ、視覚的共起)をカバーするVisual Commonsense Testsデータセットを作成します。
次に、トレーニング済みの単調モデルとマルチモーダルモデルを評価するためにデータセットを使用します。
- 参考スコア(独自算出の注目度): 29.462625570767123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our commonsense knowledge about objects includes their typical visual
attributes; we know that bananas are typically yellow or green, and not purple.
Text and image corpora, being subject to reporting bias, represent this
world-knowledge to varying degrees of faithfulness. In this paper, we
investigate to what degree unimodal (language-only) and multimodal (image and
language) models capture a broad range of visually salient attributes. To that
end, we create the Visual Commonsense Tests (ViComTe) dataset covering 5
property types (color, shape, material, size, and visual co-occurrence) for
over 5000 subjects. We validate this dataset by showing that our grounded color
data correlates much better than ungrounded text-only data with crowdsourced
color judgments provided by Paik et al. (2021). We then use our dataset to
evaluate pretrained unimodal models and multimodal models. Our results indicate
that multimodal models better reconstruct attribute distributions, but are
still subject to reporting bias. Moreover, increasing model size does not
enhance performance, suggesting that the key to visual commonsense lies in the
data.
- Abstract(参考訳): バナナは一般的に黄色か緑で、紫ではないことがわかっています。
テキストと画像コーパスは、レポートバイアスの対象であり、この世界的知識を、様々な信条の度合いで表している。
本稿では,Unimodal(言語のみ)モデルとMultimodal(画像と言語)モデルが視覚的に有意な属性をどの程度捉えているかを検討する。
そのために、5000人以上の被験者に対して5つのプロパティタイプ(色、形状、材料、サイズ、視覚的共起)をカバーするVisual Commonsense Tests (ViComTe)データセットを作成しました。
このデータセットは,Paikらによるクラウドソースカラー判定(2021年)と,テキストのみのデータよりもはるかによく相関していることを示す。
次に、トレーニング済みの単調モデルとマルチモーダルモデルを評価するためにデータセットを使用します。
以上の結果から,マルチモーダルモデルは属性分布の再構成に優れるが,それでも報告バイアスが伴うことが示唆された。
さらに、モデルサイズの増加はパフォーマンスを向上しないため、視覚的常識の鍵はデータにあることを示唆している。
関連論文リスト
- What to do if language models disagree? Black-box model ensembling for textual and visual question answering [2.1439084103679273]
我々は、既存のブラックボックスモデルから勝者を選ぶことを学ぶデータ効率で軽量なアンサンブル手法であるInfoSelを紹介する。
我々は,F1スコアにおいて,スタンドアローンLLMと比較して,最大5.27%の絶対的な増加を実現していることを示す。
論文 参考訳(メタデータ) (2024-07-04T12:59:10Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - Confidence-based Ensembles of End-to-End Speech Recognition Models [71.65982591023581]
5つの単言語モデルの信頼に基づくアンサンブルは、専用言語識別ブロックを介してモデル選択を行うシステムより優れていることを示す。
また、ベースモデルと適応モデルを組み合わせることで、オリジナルデータとターゲットデータの両方で強力な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-27T23:13:43Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - The World of an Octopus: How Reporting Bias Influences a Language
Model's Perception of Color [73.70233477125781]
報告バイアスがテキストのみのトレーニングに悪影響を及ぼし、本質的に制限されていることを示す。
次に、マルチモーダルモデルが視覚的トレーニングを利用してこれらの効果を緩和できることを実証する。
論文 参考訳(メタデータ) (2021-10-15T16:28:17Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。