論文の概要: KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2407.17773v1
- Date: Thu, 25 Jul 2024 05:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 15:17:52.201516
- Title: KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models
- Title(参考訳): KiVA: 大規模マルチモーダルモデルをテストするためのキッドインスパイアされたビジュアルアナロジー
- Authors: Eunice Yiu, Maan Qraitem, Charlie Wong, Anisa Noor Majhi, Yutong Bai, Shiry Ginosar, Alison Gopnik, Kate Saenko,
- Abstract要約: 本稿では,大型マルチモーダルモデル(LMM)における視覚的類似推論について,大人や子供と比較して検討する。
我々は,視覚的類似推論に基づくLMMのテストを行うために,1,400個の日常オブジェクトの視覚的変換のベンチマークを提案する。
- 参考スコア(独自算出の注目度): 43.86823330035457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates visual analogical reasoning in large multimodal models (LMMs) compared to human adults and children. A "visual analogy" is an abstract rule inferred from one image and applied to another. While benchmarks exist for testing visual reasoning in LMMs, they require advanced skills and omit basic visual analogies that even young children can make. Inspired by developmental psychology, we propose a new benchmark of 1,400 visual transformations of everyday objects to test LMMs on visual analogical reasoning and compare them to children and adults. We structure the evaluation into three stages: identifying what changed (e.g., color, number, etc.), how it changed (e.g., added one object), and applying the rule to new scenarios. Our findings show that while models like GPT-4V, LLaVA-1.5, and MANTIS identify the "what" effectively, they struggle with quantifying the "how" and extrapolating this rule to new objects. In contrast, children and adults exhibit much stronger analogical reasoning at all three stages. Additionally, the strongest tested model, GPT-4V, performs better in tasks involving simple visual attributes like color and size, correlating with quicker human adult response times. Conversely, more complex tasks such as number, rotation, and reflection, which necessitate extensive cognitive processing and understanding of the 3D physical world, present more significant challenges. Altogether, these findings highlight the limitations of training models on data that primarily consists of 2D images and text.
- Abstract(参考訳): 本稿では,大型マルチモーダルモデル(LMM)における視覚的類似推論について,大人や子供と比較して検討する。
視覚的類似」とは、ある画像から推論され、別の画像に適用される抽象的な規則である。
LMMで視覚的推論をテストするためのベンチマークは存在するが、高度なスキルを必要とし、幼児でもできる基本的な視覚的類似を省略する。
発達心理学に触発されて,視覚的類推に基づくLMMのテストを行うために,日常的な物体の1,400の視覚的変換のベンチマークを提案し,子供や大人と比較した。
評価は、何を変えたか(例えば、色、番号など)、どのように変わったか(例えば、1つのオブジェクトを追加)、新しいシナリオにルールを適用する3つの段階に分けられます。
以上の結果から, GPT-4V, LLaVA-1.5, MANTIS などのモデルでは「何」を効果的に識別するが, 「方法」の定量化と新たな対象への外挿に苦慮していることが明らかとなった。
対照的に、子供と大人は、全ての3つの段階においてより強い類似の推論を示す。
さらに、最強の試験モデルであるGPT-4Vは、色やサイズなどの単純な視覚的属性を含むタスクにおいて、より速い人間の成人の反応時間と関連している。
逆に、数、回転、反射といったより複雑なタスクは、より広範な認知処理と3D物理世界の理解を必要とし、より重大な課題を提示する。
これらの発見は、主に2D画像とテキストで構成されるデータに対するトレーニングモデルの制限を強調している。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - WinoViz: Probing Visual Properties of Objects Under Different States [39.92628807477848]
本稿では,異なる文脈や状態下でのオブジェクトの異種視覚特性に関する言語モデルの推論能力を探索する,1,380の例からなるテキストのみの評価データセットを提案する。
我々の課題は、現実的な推論(意図した意味を表現)と視覚的知識推論を必要とするため、難しい。
また、タスクを解決するには、複数のステップの推論チェーンを必要とする、より難しいバージョンのマルチホップデータも提示します。
論文 参考訳(メタデータ) (2024-02-21T07:31:47Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。
我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。
20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文 参考訳(メタデータ) (2022-11-22T09:27:53Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Multi-Granularity Modularized Network for Abstract Visual Reasoning [15.956555435408557]
我々は、認知的推論を測定するために設計されたRaven Progressive Matrices Testに焦点を当てる。
認知研究から着想を得たMMON(Multi-Granularity Modularized Network)を提案する。
論文 参考訳(メタデータ) (2020-07-09T09:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。