論文の概要: KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2407.17773v1
- Date: Thu, 25 Jul 2024 05:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 15:17:52.201516
- Title: KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models
- Title(参考訳): KiVA: 大規模マルチモーダルモデルをテストするためのキッドインスパイアされたビジュアルアナロジー
- Authors: Eunice Yiu, Maan Qraitem, Charlie Wong, Anisa Noor Majhi, Yutong Bai, Shiry Ginosar, Alison Gopnik, Kate Saenko,
- Abstract要約: 本稿では,大型マルチモーダルモデル(LMM)における視覚的類似推論について,大人や子供と比較して検討する。
我々は,視覚的類似推論に基づくLMMのテストを行うために,1,400個の日常オブジェクトの視覚的変換のベンチマークを提案する。
- 参考スコア(独自算出の注目度): 43.86823330035457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates visual analogical reasoning in large multimodal models (LMMs) compared to human adults and children. A "visual analogy" is an abstract rule inferred from one image and applied to another. While benchmarks exist for testing visual reasoning in LMMs, they require advanced skills and omit basic visual analogies that even young children can make. Inspired by developmental psychology, we propose a new benchmark of 1,400 visual transformations of everyday objects to test LMMs on visual analogical reasoning and compare them to children and adults. We structure the evaluation into three stages: identifying what changed (e.g., color, number, etc.), how it changed (e.g., added one object), and applying the rule to new scenarios. Our findings show that while models like GPT-4V, LLaVA-1.5, and MANTIS identify the "what" effectively, they struggle with quantifying the "how" and extrapolating this rule to new objects. In contrast, children and adults exhibit much stronger analogical reasoning at all three stages. Additionally, the strongest tested model, GPT-4V, performs better in tasks involving simple visual attributes like color and size, correlating with quicker human adult response times. Conversely, more complex tasks such as number, rotation, and reflection, which necessitate extensive cognitive processing and understanding of the 3D physical world, present more significant challenges. Altogether, these findings highlight the limitations of training models on data that primarily consists of 2D images and text.
- Abstract(参考訳): 本稿では,大型マルチモーダルモデル(LMM)における視覚的類似推論について,大人や子供と比較して検討する。
視覚的類似」とは、ある画像から推論され、別の画像に適用される抽象的な規則である。
LMMで視覚的推論をテストするためのベンチマークは存在するが、高度なスキルを必要とし、幼児でもできる基本的な視覚的類似を省略する。
発達心理学に触発されて,視覚的類推に基づくLMMのテストを行うために,日常的な物体の1,400の視覚的変換のベンチマークを提案し,子供や大人と比較した。
評価は、何を変えたか(例えば、色、番号など)、どのように変わったか(例えば、1つのオブジェクトを追加)、新しいシナリオにルールを適用する3つの段階に分けられます。
以上の結果から, GPT-4V, LLaVA-1.5, MANTIS などのモデルでは「何」を効果的に識別するが, 「方法」の定量化と新たな対象への外挿に苦慮していることが明らかとなった。
対照的に、子供と大人は、全ての3つの段階においてより強い類似の推論を示す。
さらに、最強の試験モデルであるGPT-4Vは、色やサイズなどの単純な視覚的属性を含むタスクにおいて、より速い人間の成人の反応時間と関連している。
逆に、数、回転、反射といったより複雑なタスクは、より広範な認知処理と3D物理世界の理解を必要とし、より重大な課題を提示する。
これらの発見は、主に2D画像とテキストで構成されるデータに対するトレーニングモデルの制限を強調している。
関連論文リスト
- Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition [8.058451580903123]
人間の類似性の観点から,物語の質を計測する新しい手法を提案する。
次に、この手法を用いて、複数のモデルによって生成されたストーリーを評価する。
TAPMのビジュアルコンポーネントと言語コンポーネントをアップグレードすると、競合するパフォーマンスをもたらすモデルが得られる。
論文 参考訳(メタデータ) (2024-07-05T14:48:15Z) - WinoViz: Probing Visual Properties of Objects Under Different States [39.92628807477848]
本稿では,異なる文脈や状態下でのオブジェクトの異種視覚特性に関する言語モデルの推論能力を探索する,1,380の例からなるテキストのみの評価データセットを提案する。
我々の課題は、現実的な推論(意図した意味を表現)と視覚的知識推論を必要とするため、難しい。
また、タスクを解決するには、複数のステップの推論チェーンを必要とする、より難しいバージョンのマルチホップデータも提示します。
論文 参考訳(メタデータ) (2024-02-21T07:31:47Z) - Learning high-level visual representations from a child's perspective
without strong inductive biases [21.466000613898988]
我々は、子どもの視覚体験のリアルなプロキシ上で、明示的な監督なしに最先端のニューラルネットワークを訓練する。
埋め込みモデルと生成モデルの両方を、1人の子供から200時間のヘッドカムビデオでトレーニングします。
同じデータで訓練された生成モデルは、部分的にマスキングされたオブジェクトの単純な性質を外挿することに成功しました。
論文 参考訳(メタデータ) (2023-05-24T17:26:59Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。
我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。
20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文 参考訳(メタデータ) (2022-11-22T09:27:53Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z) - Multi-Granularity Modularized Network for Abstract Visual Reasoning [15.956555435408557]
我々は、認知的推論を測定するために設計されたRaven Progressive Matrices Testに焦点を当てる。
認知研究から着想を得たMMON(Multi-Granularity Modularized Network)を提案する。
論文 参考訳(メタデータ) (2020-07-09T09:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。