Fugu-MT 論文翻訳(概要): MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

論文の概要: MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

arxiv url: http://arxiv.org/abs/2602.19497v1
Date: Mon, 23 Feb 2026 04:32:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.673037
Title: MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models
Title（参考訳）: MICON-Bench:統一マルチモーダルモデルにおけるマルチイメージコンテキスト生成のベンチマークと改善
Authors: Mingrui Wu, Hang Liu, Jiayi Ji, Xiaoshuai Sun, Rongrong Ji,
Abstract要約: マルチイメージコンテキスト生成のためのベンチマークである textbfMICON-Bench を導入する。本稿では,意味的および視覚的整合性の自動検証のためのMLLM駆動型評価-Checkpointフレームワークを提案する。また、推論中に注意を動的に調整し、コヒーレンスを高め、幻覚を減らす訓練不要なプラグアンドプレイ機構であるtextbfDynamic Attention Rebalancing (DAR) を提案する。
参考スコア（独自算出の注目度）: 89.89575486159795
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in Unified Multimodal Models (UMMs) have enabled remarkable image understanding and generation capabilities. However, while models like Gemini-2.5-Flash-Image show emerging abilities to reason over multiple related images, existing benchmarks rarely address the challenges of multi-image context generation, focusing mainly on text-to-image or single-image editing tasks. In this work, we introduce \textbf{MICON-Bench}, a comprehensive benchmark covering six tasks that evaluate cross-image composition, contextual reasoning, and identity preservation. We further propose an MLLM-driven Evaluation-by-Checkpoint framework for automatic verification of semantic and visual consistency, where multimodal large language model (MLLM) serves as a verifier. Additionally, we present \textbf{Dynamic Attention Rebalancing (DAR)}, a training-free, plug-and-play mechanism that dynamically adjusts attention during inference to enhance coherence and reduce hallucinations. Extensive experiments on various state-of-the-art open-source models demonstrate both the rigor of MICON-Bench in exposing multi-image reasoning challenges and the efficacy of DAR in improving generation quality and cross-image coherence. Github: https://github.com/Angusliuuu/MICON-Bench.
Abstract（参考訳）: 統一マルチモーダルモデル(UMM)の最近の進歩は、目覚ましい画像理解と生成機能を実現している。しかし、Gemini-2.5-Flash-Imageのようなモデルでは、複数の関連するイメージを推論する能力が高まっている。本研究では,クロスイメージ構成,コンテキスト推論,アイデンティティ保存の6つのタスクを網羅した総合的なベンチマークであるtextbf{MICON-Bench}を紹介する。さらに,マルチモーダル大規模言語モデル(MLLM)を検証対象とする,意味的・視覚的整合性の自動検証のためのMLLM駆動評価フレームワークを提案する。さらに、推論中に注意を動的に調整し、コヒーレンスを高め、幻覚を減らす訓練不要なプラグアンドプレイ機構である「textbf{Dynamic Attention Rebalancing (DAR)」を提案する。様々な最先端のオープンソースモデルに関する大規模な実験は、MICON-Benchのマルチイメージ推論課題の顕在化における厳密さと、生成品質とクロスイメージコヒーレンスの改善におけるDARの有効性の両方を実証している。 Github:https://github.com/Angusliuu/MICON-Bench.com

関連論文リスト

More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。 LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文参考訳（メタデータ） (2026-01-12T18:45:13Z)
Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。 UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-09T06:42:49Z)
Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。 Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。 Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-09-23T17:05:46Z)
LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer [32.9330637921386]
LAMICはレイアウト対応のマルチイメージコンポジションフレームワークである。単一の参照拡散モデルをトレーニング不要な方法でマルチ参照シナリオに拡張する。 ID-S、BG-S、IN-R、AVGのスコアにおいて、既存のマルチ参照ベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-08-01T09:51:54Z)
Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文参考訳（メタデータ） (2025-02-21T03:05:45Z)
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。 MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文参考訳（メタデータ） (2024-08-22T11:57:16Z)
Generative Modeling for Multi-task Visual Learning [40.96212750592383]
様々な視覚的認知タスクにおいて有用な共有生成モデルを学ぶという,新しい問題を考える。本稿では,識別型マルチタスクネットワークと生成ネットワークを結合して,汎用的なマルチタスク指向生成モデリングフレームワークを提案する。我々のフレームワークは、最先端のマルチタスクアプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2021-06-25T03:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。