論文の概要: Beyond Perception: Evaluating Abstract Visual Reasoning through Multi-Stage Task
- arxiv url: http://arxiv.org/abs/2505.21850v2
- Date: Fri, 30 May 2025 05:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.120745
- Title: Beyond Perception: Evaluating Abstract Visual Reasoning through Multi-Stage Task
- Title(参考訳): 知覚を超えて:多段階タスクによる抽象的な視覚的推論を評価する
- Authors: Yanbei Jiang, Yihao Ding, Chao Lei, Jiayang Ao, Jey Han Lau, Krista A. Ehinger,
- Abstract要約: 現在のマルチモーダル大言語モデル(MLLM)は、一般的な視覚的推論では優れているが、抽象的視覚的推論(AVR)では未探索のままである。
既存のベンチマークでは、単一ステップの推論に重点を置いて、最終的な結果を強調しながら、推論プロセスの多段階的な性質を無視している。
我々は、様々なレベルの複雑さの推論を評価するために設計されたマルチステージベンチマークであるMultiStARを紹介する。
- 参考スコア(独自算出の注目度): 22.16139464288789
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Current Multimodal Large Language Models (MLLMs) excel in general visual reasoning but remain underexplored in Abstract Visual Reasoning (AVR), which demands higher-order reasoning to identify abstract rules beyond simple perception. Existing AVR benchmarks focus on single-step reasoning, emphasizing the end result but neglecting the multi-stage nature of reasoning process. Past studies found MLLMs struggle with these benchmarks, but it doesn't explain how they fail. To address this gap, we introduce MultiStAR, a Multi-Stage AVR benchmark, based on RAVEN, designed to assess reasoning across varying levels of complexity. Additionally, existing metrics like accuracy only focus on the final outcomes while do not account for the correctness of intermediate steps. Therefore, we propose a novel metric, MSEval, which considers the correctness of intermediate steps in addition to the final outcomes. We conduct comprehensive experiments on MultiStAR using 17 representative close-source and open-source MLLMs. The results reveal that while existing MLLMs perform adequately on basic perception tasks, they continue to face challenges in more complex rule detection stages.
- Abstract(参考訳): 現在のMLLM(Multimodal Large Language Models)は、一般的な視覚的推論では優れているが、抽象的視覚推論(Abstract Visual Reasoning, AVR)では、単純な知覚以上の抽象的ルールを特定するために高次推論を必要とする。
既存のAVRベンチマークでは、単一ステップの推論に重点を置いて、最終的な結果を強調しながら、推論プロセスの多段階的な性質を無視している。
過去の研究では、MLLMはこれらのベンチマークに苦労しているが、どのように失敗するかは説明されていない。
このギャップに対処するために、さまざまなレベルの複雑さの推論を評価するために、RAVENをベースとしたマルチステージAVRベンチマークであるMultiStARを導入する。
さらに、精度のような既存のメトリクスは最終結果のみにフォーカスするが、中間ステップの正確性は考慮しない。
そこで本研究では,最終結果に加えて中間段階の正当性を考慮した新しい計量 MSEval を提案する。
我々は17のオープンソースMLLMを用いてMultiStARの総合的な実験を行う。
その結果、既存のMLLMは基本的な認識タスクで適切に機能する一方で、より複雑なルール検出段階において課題に直面し続けていることが明らかとなった。
関連論文リスト
- Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [77.72128397088409]
本研究は,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また,モデルが積極的に複合推論を行うように促す新しい強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - Misconfidence-based Demonstration Selection for LLM In-Context Learning [0.0]
大規模言語モデル(LLM)を用いたインコンテキスト学習は、様々なタスクに迅速に適応する上で優れている。
この問題に対する現在のアプローチは、難易度の高い外部監視に依存するか、LLMとの頻繁な相互作用を必要とするかのいずれかである。
In-Context Reflection (ICR) と呼ばれる新しい手法を提案し、これらの課題を克服する。
論文 参考訳(メタデータ) (2024-01-12T00:11:24Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。