論文の概要: ROME: Evaluating Pre-trained Vision-Language Models on Reasoning beyond
Visual Common Sense
- arxiv url: http://arxiv.org/abs/2310.19301v1
- Date: Mon, 30 Oct 2023 06:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 21:21:59.837423
- Title: ROME: Evaluating Pre-trained Vision-Language Models on Reasoning beyond
Visual Common Sense
- Title(参考訳): ROME:ビジュアルコモンセンスを超えた推論のための事前学習型視覚言語モデルの評価
- Authors: Kankan Zhou, Eason Lai, Wei Bin Au Yeong, Kyriakos Mouratidis, Jing
Jiang
- Abstract要約: 我々はROMEという新しい探索データセットを導入する(常識的知識を超越した推論)。
ROMEには、色、形状、材料、サイズ、位置関係に関する常識的知識に反するイメージが含まれている。
最先端の事前訓練された視覚言語モデルの実験では、これらのモデルのほとんどは、いまだに反直観的なシナリオを解釈できないことが示されている。
- 参考スコア(独自算出の注目度): 6.592322838598781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans possess a strong capability for reasoning beyond common sense. For
example, given an unconventional image of a goldfish laying on the table next
to an empty fishbowl, a human would effortlessly determine that the fish is not
inside the fishbowl. The case, however, may be different for a vision-language
model, whose reasoning could gravitate towards the common scenario that the
fish is inside the bowl, despite the visual input. In this paper, we introduce
a novel probing dataset named ROME (reasoning beyond commonsense knowledge) to
evaluate whether the state-of-the-art pre-trained vision-language models have
the reasoning capability to correctly interpret counter-intuitive content. ROME
contains images that defy commonsense knowledge with regards to color, shape,
material, size and positional relation. Experiments on the state-of-the-art
pre-trained vision-language models reveal that most of these models are still
largely incapable of interpreting counter-intuitive scenarios. We hope that
ROME will spur further investigations on reasoning beyond commonsense knowledge
in vision-language research.
- Abstract(参考訳): 人間は常識を超えた推論能力を持っている。
例えば、空の魚のボウルの隣のテーブルに横たわる金魚の非日常的なイメージを考えると、人間は魚が魚のボウルの中にいないと断固として判断する。
しかしこのケースは、視覚的な入力にもかかわらず、魚がボウルの中にいるという一般的なシナリオに向け、視覚言語モデルでは異なるかもしれない。
本稿では,最先端の視覚言語モデルが直観的コンテンツを正しく解釈する推論能力を持っているかどうかを評価するために,rome(reasoning beyond commonsense knowledge)という新しい探索データセットを提案する。
ROMEには、色、形状、材料、サイズ、位置関係に関する常識的知識に反するイメージが含まれている。
最先端の事前学習された視覚言語モデルの実験により、これらのモデルのほとんどは依然として直観に反するシナリオを解釈できないことが判明した。
我々は、ROMEが視覚言語研究における常識知識以上の推論に関するさらなる調査を加速することを期待している。
関連論文リスト
- Fill in the blanks: Rethinking Interpretability in vision [0.0]
我々は、新しい視点から視覚モデルの説明可能性を再考し、トレーニング中にモデルが学習した一般的な入力構造を探索する。
標準的なビジョンデータセットと事前トレーニングされたモデルの実験は、一貫性のあるパターンを明らかにし、追加のモデルに依存しない説明可能性ツールとして解釈できる。
論文 参考訳(メタデータ) (2024-11-15T15:31:06Z) - Using Multimodal Deep Neural Networks to Disentangle Language from Visual Aesthetics [8.749640179057469]
我々は、自然画像の人間の美的評価を予測するために、ユニモーダル視覚、ユニモーダル言語、マルチモーダルディープニューラルネットワーク(DNN)モデルの学習表現に対する線形復号を用いる。
言語対応型視覚モデル(SLIPなど)は, 単言語型視覚モデル(SimCLRなど)では, 言語対応の視覚モデル(SLIPなど)では, 単言語型視覚と比較して小さな利得が得られている。
まとめると、これらの結果は、最終的に我々が美の体験を説明するために見つかるであろう言葉が何であれ、フィードフォワードの知覚の計算は、その経験に十分な基礎を与えるかもしれないことを示唆している。
論文 参考訳(メタデータ) (2024-10-31T03:37:21Z) - Does Spatial Cognition Emerge in Frontier Models? [56.47912101304053]
本研究では,フロンティアモデルにおける空間認知を体系的に評価するベンチマークSPACEを提案する。
その結果、現代のフロンティアモデルは動物の空間知能に劣っていることが示唆された。
論文 参考訳(メタデータ) (2024-10-09T01:41:49Z) - How Well Do Deep Learning Models Capture Human Concepts? The Case of the Typicality Effect [2.3622884172290255]
近年,言語モデルと視覚モデルにおける人間のような典型的効果を求める研究は,単一のモダリティのモデルに焦点を当てている。
本研究では、より広い範囲の言語と視覚モデルを考えることにより、このモデルに対する行動評価を拡大する。
また、視覚+言語モデルペアの典型性予測とマルチモーダルCLIPベースのモデルの組み合わせが、どちらのモダリティ単独のモデルよりも人間の典型性判断に適合しているかどうかを評価する。
論文 参考訳(メタデータ) (2024-05-25T08:38:30Z) - PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。
単純な抽象パターンをうまく一般化できないことが分かりました。
系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文 参考訳(メタデータ) (2024-03-20T05:37:24Z) - CommonsenseVIS: Visualizing and Understanding Commonsense Reasoning
Capabilities of Natural Language Models [30.63276809199399]
本稿では,外部コモンセンス知識ベースを用いた視覚的説明システムであるCommonsenseVISについて述べる。
本システムでは,異なる概念とその基盤となる関係について,多段階の可視化とインタラクティブなモデル探索と編集を行う。
論文 参考訳(メタデータ) (2023-07-23T17:16:13Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Visual Abductive Reasoning [85.17040703205608]
帰納的推論は、部分的な観察の可能な限りの可能な説明を求める。
本稿では,日常的な視覚的状況下でのマシンインテリジェンスの帰納的推論能力を調べるために,新たなタスクとデータセットであるVisual Abductive Reasoning(VAR)を提案する。
論文 参考訳(メタデータ) (2022-03-26T10:17:03Z) - The Abduction of Sherlock Holmes: A Dataset for Visual Abductive
Reasoning [113.25016899663191]
人間は、画像のリテラルの内容を超えるものについて、誘惑的に推論し仮説を立てる能力がある。
本稿では,103K画像の注釈付きコーパスであるSherlockについて述べる。
論文 参考訳(メタデータ) (2022-02-10T02:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。