論文の概要: ROME: Evaluating Pre-trained Vision-Language Models on Reasoning beyond
Visual Common Sense
- arxiv url: http://arxiv.org/abs/2310.19301v1
- Date: Mon, 30 Oct 2023 06:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 21:21:59.837423
- Title: ROME: Evaluating Pre-trained Vision-Language Models on Reasoning beyond
Visual Common Sense
- Title(参考訳): ROME:ビジュアルコモンセンスを超えた推論のための事前学習型視覚言語モデルの評価
- Authors: Kankan Zhou, Eason Lai, Wei Bin Au Yeong, Kyriakos Mouratidis, Jing
Jiang
- Abstract要約: 我々はROMEという新しい探索データセットを導入する(常識的知識を超越した推論)。
ROMEには、色、形状、材料、サイズ、位置関係に関する常識的知識に反するイメージが含まれている。
最先端の事前訓練された視覚言語モデルの実験では、これらのモデルのほとんどは、いまだに反直観的なシナリオを解釈できないことが示されている。
- 参考スコア(独自算出の注目度): 6.592322838598781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans possess a strong capability for reasoning beyond common sense. For
example, given an unconventional image of a goldfish laying on the table next
to an empty fishbowl, a human would effortlessly determine that the fish is not
inside the fishbowl. The case, however, may be different for a vision-language
model, whose reasoning could gravitate towards the common scenario that the
fish is inside the bowl, despite the visual input. In this paper, we introduce
a novel probing dataset named ROME (reasoning beyond commonsense knowledge) to
evaluate whether the state-of-the-art pre-trained vision-language models have
the reasoning capability to correctly interpret counter-intuitive content. ROME
contains images that defy commonsense knowledge with regards to color, shape,
material, size and positional relation. Experiments on the state-of-the-art
pre-trained vision-language models reveal that most of these models are still
largely incapable of interpreting counter-intuitive scenarios. We hope that
ROME will spur further investigations on reasoning beyond commonsense knowledge
in vision-language research.
- Abstract(参考訳): 人間は常識を超えた推論能力を持っている。
例えば、空の魚のボウルの隣のテーブルに横たわる金魚の非日常的なイメージを考えると、人間は魚が魚のボウルの中にいないと断固として判断する。
しかしこのケースは、視覚的な入力にもかかわらず、魚がボウルの中にいるという一般的なシナリオに向け、視覚言語モデルでは異なるかもしれない。
本稿では,最先端の視覚言語モデルが直観的コンテンツを正しく解釈する推論能力を持っているかどうかを評価するために,rome(reasoning beyond commonsense knowledge)という新しい探索データセットを提案する。
ROMEには、色、形状、材料、サイズ、位置関係に関する常識的知識に反するイメージが含まれている。
最先端の事前学習された視覚言語モデルの実験により、これらのモデルのほとんどは依然として直観に反するシナリオを解釈できないことが判明した。
我々は、ROMEが視覚言語研究における常識知識以上の推論に関するさらなる調査を加速することを期待している。
関連論文リスト
- PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。
単純な抽象パターンをうまく一般化できないことが分かりました。
系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文 参考訳(メタデータ) (2024-03-20T05:37:24Z) - Visual cognition in multimodal large language models [13.768104721550321]
本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
その結果、これらのモデルは、視覚データの処理と解釈において顕著な熟練度を示す一方で、これらの領域における人間の能力に欠けていることが判明した。
論文 参考訳(メタデータ) (2023-11-27T18:58:34Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - CommonsenseVIS: Visualizing and Understanding Commonsense Reasoning
Capabilities of Natural Language Models [30.63276809199399]
本稿では,外部コモンセンス知識ベースを用いた視覚的説明システムであるCommonsenseVISについて述べる。
本システムでは,異なる概念とその基盤となる関係について,多段階の可視化とインタラクティブなモデル探索と編集を行う。
論文 参考訳(メタデータ) (2023-07-23T17:16:13Z) - InDL: A New Dataset and Benchmark for In-Diagram Logic Interpretation
based on Visual Illusion [1.7980584146314789]
本稿では,深層学習モデルの論理解釈能力を評価するための新しい手法を提案する。
これらのモデルを厳格にテストし、ベンチマークするために設計された、ユニークなデータセットであるInDLを構築します。
我々は、6つの古典的な幾何学的錯視を利用して、人間と機械の視覚知覚の比較フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-28T13:01:32Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Mind's Eye: Grounded Language Model Reasoning through Simulation [47.654525013443255]
我々は,物理世界における基礎言語モデル推論のパラダイムであるMind's Eyeを提示する。
実験により、マインドズアイは推論能力を大きく向上させることができることが示された。
Mind's Eyeで武装したより小さな言語モデルは、100倍の大きさのモデルと同じようなパフォーマンスを得ることができる。
論文 参考訳(メタデータ) (2022-10-11T11:39:23Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Visual Abductive Reasoning [85.17040703205608]
帰納的推論は、部分的な観察の可能な限りの可能な説明を求める。
本稿では,日常的な視覚的状況下でのマシンインテリジェンスの帰納的推論能力を調べるために,新たなタスクとデータセットであるVisual Abductive Reasoning(VAR)を提案する。
論文 参考訳(メタデータ) (2022-03-26T10:17:03Z) - The Abduction of Sherlock Holmes: A Dataset for Visual Abductive
Reasoning [113.25016899663191]
人間は、画像のリテラルの内容を超えるものについて、誘惑的に推論し仮説を立てる能力がある。
本稿では,103K画像の注釈付きコーパスであるSherlockについて述べる。
論文 参考訳(メタデータ) (2022-02-10T02:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。