Fugu-MT 論文翻訳(概要): KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models

論文の概要: KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models

arxiv url: http://arxiv.org/abs/2407.17773v1
Date: Thu, 25 Jul 2024 05:02:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-26 15:17:52.201516
Title: KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models
Title（参考訳）: KiVA: 大規模マルチモーダルモデルをテストするためのキッドインスパイアされたビジュアルアナロジー
Authors: Eunice Yiu, Maan Qraitem, Charlie Wong, Anisa Noor Majhi, Yutong Bai, Shiry Ginosar, Alison Gopnik, Kate Saenko,
Abstract要約: 本稿では,大型マルチモーダルモデル(LMM)における視覚的類似推論について,大人や子供と比較して検討する。我々は,視覚的類似推論に基づくLMMのテストを行うために,1,400個の日常オブジェクトの視覚的変換のベンチマークを提案する。
参考スコア（独自算出の注目度）: 43.86823330035457
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper investigates visual analogical reasoning in large multimodal models (LMMs) compared to human adults and children. A "visual analogy" is an abstract rule inferred from one image and applied to another. While benchmarks exist for testing visual reasoning in LMMs, they require advanced skills and omit basic visual analogies that even young children can make. Inspired by developmental psychology, we propose a new benchmark of 1,400 visual transformations of everyday objects to test LMMs on visual analogical reasoning and compare them to children and adults. We structure the evaluation into three stages: identifying what changed (e.g., color, number, etc.), how it changed (e.g., added one object), and applying the rule to new scenarios. Our findings show that while models like GPT-4V, LLaVA-1.5, and MANTIS identify the "what" effectively, they struggle with quantifying the "how" and extrapolating this rule to new objects. In contrast, children and adults exhibit much stronger analogical reasoning at all three stages. Additionally, the strongest tested model, GPT-4V, performs better in tasks involving simple visual attributes like color and size, correlating with quicker human adult response times. Conversely, more complex tasks such as number, rotation, and reflection, which necessitate extensive cognitive processing and understanding of the 3D physical world, present more significant challenges. Altogether, these findings highlight the limitations of training models on data that primarily consists of 2D images and text.
Abstract（参考訳）: 本稿では,大型マルチモーダルモデル(LMM)における視覚的類似推論について,大人や子供と比較して検討する。視覚的類似」とは、ある画像から推論され、別の画像に適用される抽象的な規則である。 LMMで視覚的推論をテストするためのベンチマークは存在するが、高度なスキルを必要とし、幼児でもできる基本的な視覚的類似を省略する。発達心理学に触発されて,視覚的類推に基づくLMMのテストを行うために,日常的な物体の1,400の視覚的変換のベンチマークを提案し,子供や大人と比較した。評価は、何を変えたか(例えば、色、番号など)、どのように変わったか(例えば、1つのオブジェクトを追加)、新しいシナリオにルールを適用する3つの段階に分けられます。以上の結果から, GPT-4V, LLaVA-1.5, MANTIS などのモデルでは「何」を効果的に識別するが, 「方法」の定量化と新たな対象への外挿に苦慮していることが明らかとなった。対照的に、子供と大人は、全ての3つの段階においてより強い類似の推論を示す。さらに、最強の試験モデルであるGPT-4Vは、色やサイズなどの単純な視覚的属性を含むタスクにおいて、より速い人間の成人の反応時間と関連している。逆に、数、回転、反射といったより複雑なタスクは、より広範な認知処理と3D物理世界の理解を必要とし、より重大な課題を提示する。これらの発見は、主に2D画像とテキストで構成されるデータに対するトレーニングモデルの制限を強調している。

関連論文リスト

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。視覚言語モデル(VLM)の規則に基づく強化学習に適応する提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文参考訳（メタデータ） (2025-06-27T17:59:27Z)
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。 STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文参考訳（メタデータ） (2025-06-05T05:09:46Z)
Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT [24.085953089267772]
複雑な場面において,OpenAI o3 と GPT-4o が基本的な物理法則,空間的相互作用,因果的影響を把握できないことを示す。我々は、視覚連鎖(CoT)レンズによる視覚的身体的推論を厳格に評価するベンチマークであるMVPBenchを紹介した。最先端のMLLMでさえ、物理領域における視覚的推論精度の低下と画像テキストアライメントの弱さを示す。
論文参考訳（メタデータ） (2025-05-30T03:48:59Z)
Computer Vision Models Show Human-Like Sensitivity to Geometric and Topological Concepts [1.935452308279137]
コンピュータビジョンモデルと幾何学的・トポロジカル(GT)概念に対する人間の感度について検討する。私たちは、大規模な画像データセットに基づいてトレーニングされたコンピュータビジョンモデルを使用します。トランスフォーマーベースのモデルは、幼児よりも高い総合的精度を達成する。
論文参考訳（メタデータ） (2025-05-19T16:04:53Z)
LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception [105.78609483419115]
我々はLongPerceptualThoughtsを紹介した。これは知覚タスクのための30Kの長所のトレースを持つ新しい合成データセットである。本稿では,検証可能な複数の質問を最初に合成する新しい3段階データ合成フレームワークを提案する。既存の視覚的推論データ生成手法よりも顕著な改善が示された。
論文参考訳（メタデータ） (2025-04-21T18:10:38Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。 GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。 VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文参考訳（メタデータ） (2024-04-09T17:30:18Z)
WinoViz: Probing Visual Properties of Objects Under Different States [39.92628807477848]
本稿では,異なる文脈や状態下でのオブジェクトの異種視覚特性に関する言語モデルの推論能力を探索する,1,380の例からなるテキストのみの評価データセットを提案する。我々の課題は、現実的な推論(意図した意味を表現)と視覚的知識推論を必要とするため、難しい。また、タスクを解決するには、複数のステップの推論チェーンを必要とする、より難しいバージョンのマルチホップデータも提示します。
論文参考訳（メタデータ） (2024-02-21T07:31:47Z)
Does Conceptual Representation Require Embodiment? Insights From Large Language Models [9.390117546307042]
ヒトとChatGPT(GPT-3.5およびGPT-4)の4,442の語彙概念の表現の比較 2) GPT-4 は GPT-3.5 よりも優れており,GPT-4 の利得は付加的な視覚学習と結びついており,触覚やイメージ容易性などの関連性にも寄与すると考えられる。
論文参考訳（メタデータ） (2023-05-30T15:06:28Z)
3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-20T17:59:49Z)
Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。 20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文参考訳（メタデータ） (2022-11-22T09:27:53Z)
MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文参考訳（メタデータ） (2021-06-04T17:57:39Z)
Multi-Granularity Modularized Network for Abstract Visual Reasoning [15.956555435408557]
我々は、認知的推論を測定するために設計されたRaven Progressive Matrices Testに焦点を当てる。認知研究から着想を得たMMON(Multi-Granularity Modularized Network)を提案する。
論文参考訳（メタデータ） (2020-07-09T09:54:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。