論文の概要: AEGIS: Exploring the Limit of World Knowledge Capabilities for Unified Mulitmodal Models
- arxiv url: http://arxiv.org/abs/2601.00561v1
- Date: Fri, 02 Jan 2026 04:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.516646
- Title: AEGIS: Exploring the Limit of World Knowledge Capabilities for Unified Mulitmodal Models
- Title(参考訳): AEGIS: 統一マルチモーダルモデルのための世界知識能力の限界を探る
- Authors: Jintao Lin, Bowen Dong, Weikang Shi, Chenyang Lei, Suiyun Zhang, Rui Liu, Xihui Liu,
- Abstract要約: 多様なタスクにまたがって世界知識を適用する統一マルチモーダルモデルの能力は、決定的かつ未解決の課題である。
本稿では,視覚的理解,生成,編集,インターリーブ生成を対象とする総合マルチタスクベンチマークであるAEGISを提案する。
さらに、不明瞭なプロンプトベースのスコアを原子Y/N'の判定に置き換えるプロトコルである決定論的チェックリストベース評価(DCE)を提案する。
- 参考スコア(独自算出の注目度): 44.3350738704405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The capability of Unified Multimodal Models (UMMs) to apply world knowledge across diverse tasks remains a critical, unresolved challenge. Existing benchmarks fall short, offering only siloed, single-task evaluations with limited diagnostic power. To bridge this gap, we propose AEGIS (\emph{i.e.}, \textbf{A}ssessing \textbf{E}diting, \textbf{G}eneration, \textbf{I}nterpretation-Understanding for \textbf{S}uper-intelligence), a comprehensive multi-task benchmark covering visual understanding, generation, editing, and interleaved generation. AEGIS comprises 1,050 challenging, manually-annotated questions spanning 21 topics (including STEM, humanities, daily life, etc.) and 6 reasoning types. To concretely evaluate the performance of UMMs in world knowledge scope without ambiguous metrics, we further propose Deterministic Checklist-based Evaluation (DCE), a protocol that replaces ambiguous prompt-based scoring with atomic ``Y/N'' judgments, to enhance evaluation reliability. Our extensive experiments reveal that most UMMs exhibit severe world knowledge deficits and that performance degrades significantly with complex reasoning. Additionally, simple plug-in reasoning modules can partially mitigate these vulnerabilities, highlighting a promising direction for future research. These results highlight the importance of world-knowledge-based reasoning as a critical frontier for UMMs.
- Abstract(参考訳): 多様なタスクにまたがって世界知識を適用する統一マルチモーダルモデル(UMM)の能力は、決定的かつ未解決の課題である。
既存のベンチマークは不足しており、診断能力に制限のあるサイロ化されたシングルタスク評価のみを提供する。
このギャップを埋めるために、視覚的理解、生成、編集、インターリーブド生成を含む総合マルチタスクベンチマークであるAEGIS (\emph{i.e.}, \textbf{A}ssessing \textbf{E}diting, \textbf{G}eneration, \textbf{I}nterpretation-Understanding for \textbf{S}uper-intelligence)を提案する。
AEGISは、21のトピック(STEM、人文科学、日常生活など)と6つの推論タイプにまたがる、挑戦的で手動で注釈付けされた1050の質問からなる。
さらに,不明瞭な指標を伴わずに世界知識領域におけるUMMの性能を具体的に評価するために,不明瞭なプロンプトベースのスコアをアトミックな「Y/N」判定に置き換えるプロトコルである決定論的チェックリストに基づく評価(DCE)を提案し,信頼性を高める。
我々の広範な実験により、ほとんどのUMMは深刻な世界知識不足を示し、複雑な推論によって性能が著しく低下することが明らかとなった。
さらに、単純なプラグイン推論モジュールは、これらの脆弱性を部分的に軽減し、将来の研究の有望な方向性を強調します。
これらの結果は、UMMにとって重要なフロンティアとして、世界知識に基づく推論の重要性を強調している。
関連論文リスト
- Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information [21.562453754113072]
大規模推論モデル (LRM) は数学において顕著な問題解決能力を示している。
多様な文脈を持つ2種類の不完全な問題からなる新しいデータセットを提案する。
このデータセットに基づいて, LRMの系統的評価を行ったところ, 積極的に情報を求めることができないことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-15T06:42:00Z) - MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - ADSeeker: A Knowledge-Infused Framework for Anomaly Detection and Reasoning [17.249025173985697]
本稿では,知識基底推論による検査性能向上を目的とした異常タスクアシスタントであるADSeekerを提案する。
業界異常検出(IAD)データの制限に対処するため,最大規模のADデータセットであるMulA(Multi-type Anomaly)を導入する。
我々のプラグイン・アンド・プレイフレームワークであるADSeekerは、いくつかのベンチマークデータセットで最先端のゼロショット性能を実現しています。
論文 参考訳(メタデータ) (2025-08-05T05:05:06Z) - SMART: Self-Generating and Self-Validating Multi-Dimensional Assessment for LLMs' Mathematical Problem Solving [24.689620248781214]
大規模言語モデル(LLM)は、様々な数学的なベンチマークで顕著な結果を得た。
最終回答か推論プロセスに焦点をあてた共通評価手法は、問題解決手順全体を評価するのに失敗する。
この結果から,現在のLCMの真の弱点が明らかとなり,新たな指標であるオールパススコア(All-Pass Score)のモチベーションが得られた。
論文 参考訳(メタデータ) (2025-05-22T13:18:24Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。