論文の概要: Visual Reasoning Evaluation of Grok, Deepseek Janus, Gemini, Qwen, Mistral, and ChatGPT
- arxiv url: http://arxiv.org/abs/2502.16428v1
- Date: Sun, 23 Feb 2025 04:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:43.760195
- Title: Visual Reasoning Evaluation of Grok, Deepseek Janus, Gemini, Qwen, Mistral, and ChatGPT
- Title(参考訳): Grok, Deepseek Janus, Gemini, Qwen, Mistral, ChatGPTの視覚的推論
- Authors: Nidhal Jegham, Marwan Abdelatti, Abdeltawab Hendawi,
- Abstract要約: 本研究では,マルチイメージ推論タスクとリジェクションに基づく評価と位置偏差検出を統合した新しいベンチマークを提案する。
我々はGrok 3, ChatGPT-4o, ChatGPT-o1, Gemini 2.0 Flash Experimental, DeepSeek Janus model, Qwen2.5-VL-72B-Instruct, QVQ-72B-Preview, Pixtral 12Bを評価するためにこのベンチマークを適用した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Traditional evaluations of multimodal large language models (LLMs) have been limited by their focus on single-image reasoning, failing to assess crucial aspects like contextual understanding, reasoning stability, and uncertainty calibration. This study addresses these limitations by introducing a novel benchmark that integrates multi-image reasoning tasks with rejection-based evaluation and positional bias detection. To evaluate these dimensions, we further introduce entropy as a novel metric for quantifying reasoning consistency across reordered answer variants. We applied this benchmark to assess Grok 3, ChatGPT-4o, ChatGPT-o1, Gemini 2.0 Flash Experimental, DeepSeek Janus models, Qwen2.5-VL-72B-Instruct, QVQ-72B-Preview, and Pixtral 12B across eight visual reasoning tasks, including difference spotting and diagram interpretation. Our findings reveal ChatGPT-o1 leading in overall accuracy (82.5\%) and rejection accuracy (70.0\%), closely followed by Gemini 2.0 Flash Experimental (70.8\%). QVQ-72B-Preview demonstrated superior rejection accuracy (85.5\%). Notably, Pixtral 12B (51.7\%) showed promise in specific domains, while Janus models exhibited challenges in bias and uncertainty calibration, reflected in low rejection accuracies and high entropy scores. High entropy scores in Janus models (Janus 7B: 0.8392, Janus 1B: 0.787) underscore their susceptibility to positional bias and unstable reasoning, contrasting with the low entropy and robust reasoning of ChatGPT models. The study further demonstrates that model size is not the sole determinant of performance, as evidenced by Grok 3 underperformance despite its substantial parameter count. By employing multi-image contexts, rejection mechanisms, and entropy-based consistency metrics, this benchmark sets a new standard for evaluating multimodal LLMs, enabling a more robust and reliable assessment of next-generation AI systems.
- Abstract(参考訳): 従来のマルチモーダル・大規模言語モデル(LLM)の評価は、文脈的理解、推論安定性、不確実性校正といった重要な側面を評価できない単一イメージ推論に焦点をあてることによって制限されてきた。
本研究では,マルチイメージ推論タスクとリジェクションに基づく評価と位置バイアス検出を統合した新しいベンチマークを導入することにより,これらの制約に対処する。
これらの次元を評価するために、再順序解の変種間での推論一貫性を定量化するための新しい計量としてエントロピーを導入する。
我々はGrok 3, ChatGPT-4o, ChatGPT-o1, Gemini 2.0 Flash Experimental, DeepSeek Janus model, Qwen2.5-VL-72B-Instruct, QVQ-72B-Preview, Pixtral 12Bを8つの視覚的推論タスクで評価した。
以上の結果から,ChatGPT-o1は全体の精度(82.5\%)と拒絶精度(70.0\%)に寄与し,さらにGemini 2.0 Flash Experimental(70.8\%)がそれに近かった。
QVQ-72B-Previewはより優れた拒絶精度(85.5\%)を示した。
特に、Pixtral 12B (51.7\%)は特定の領域で有望であるが、Janusモデルはバイアスと不確実性校正の課題を示し、低い拒絶精度と高いエントロピースコアを反映した。
Janusモデル(Janus 7B: 0.8392, Janus 1B: 0.787)の高エントロピースコアは、ChatGPTモデルの低エントロピーとロバストな推論と対照的に、位置バイアスと不安定な推論に対する感受性を裏付けるものである。
この研究は、モデルサイズが唯一の性能決定要因ではないことを証明している。
このベンチマークでは、マルチイメージコンテキスト、拒絶機構、エントロピーベースの一貫性メトリクスを用いることで、マルチモーダルLLMを評価するための新しい標準を設定し、次世代AIシステムのより堅牢で信頼性の高い評価を可能にする。
関連論文リスト
- Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Challenges and Considerations in the Evaluation of Bayesian Causal Discovery [49.0053848090947]
因果発見の不確実性を表現することは、実験設計において重要な要素であり、より広く、安全で信頼性の高い因果決定のために重要である。
単一の推定因果グラフとモデルパラメータによる評価に依存する非ベイズ因果発見とは異なり、因果発見はその量の性質に起因する課題を提示する。
評価に最も適した指標についてのコンセンサスはない。
論文 参考訳(メタデータ) (2024-06-05T12:45:23Z) - Uncertainty Quantification for Bird's Eye View Semantic Segmentation: Methods and Benchmarks [10.193504550494486]
本稿では,BEVセグメンテーションにおける予測不確実性定量化のためのベンチマークを提案する。
誤分類および非分布画素の識別における予測不確実性の有効性と校正に焦点が当てられている。
本研究では,不均衡なデータに対する不確実性-局所-クロス-エントロピー損失を提案し,セグメンテーションの品質とキャリブレーションを継続的に改善する。
論文 参考訳(メタデータ) (2024-05-31T16:32:46Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - On the Calibration and Uncertainty with P\'{o}lya-Gamma Augmentation for
Dialog Retrieval Models [30.519215651368683]
ダイアログ応答検索モデルは、ある質問にどの程度関連があるかという応答に対して単一のスコアを出力します。
ディープニューラルネットワークのキャリブレーションの悪さは、信頼性の低い予測が常にユーザの判断を誤ったように、シングルスコアに対してさまざまな不確実性をもたらす。
対話応答検索モデルのための効率的な校正・不確実性推定フレームワークPG-DRRを提案する。
論文 参考訳(メタデータ) (2023-03-15T13:26:25Z) - Mutual Wasserstein Discrepancy Minimization for Sequential
Recommendation [82.0801585843835]
逐次リコメンデーションのためのMutual WasserStein差分最小化MSteinに基づく新しい自己教師型学習フレームワークを提案する。
また,ワッサーシュタイン離散度測定に基づく新しい学習損失を提案する。
論文 参考訳(メタデータ) (2023-01-28T13:38:48Z) - Do Bayesian Variational Autoencoders Know What They Don't Know? [0.6091702876917279]
OoD(Out-of-Distribution)入力を検出する問題は、ディープニューラルネットワークにとって最重要課題である。
入力の密度を推定できる深部生成モデルでさえ、信頼できない可能性があることが以前に示されている。
本稿では,マルコフ連鎖モンテカルロ,バックプロパゲーションによるベイズ勾配,およびウェイト平均ガウスの3つの推論手法について検討する。
論文 参考訳(メタデータ) (2022-12-29T11:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。