論文の概要: MICo-150K: A Comprehensive Dataset Advancing Multi-Image Composition
- arxiv url: http://arxiv.org/abs/2512.07348v1
- Date: Mon, 08 Dec 2025 09:40:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.812918
- Title: MICo-150K: A Comprehensive Dataset Advancing Multi-Image Composition
- Title(参考訳): MICo-150K: 総合的なデータセットによるマルチイメージ合成
- Authors: Xinyu Wei, Kangrui Cen, Hongyang Wei, Zhen Guo, Bairui Li, Zeqing Wang, Jinrui Zhang, Lei Zhang,
- Abstract要約: マルチイメージコンポジション(MICo)は、高品質なトレーニングデータが欠如していることもあって、難しい問題である。
我々はMICoの体系的な研究を行い、それを7つの代表的なタスクに分類し、高品質なソース画像の大規模なコレクションをキュレートする。
我々は,豊富なバランスの取れた合成画像を合成し,その後にヒト・イン・ザ・ループ・フィルタリングと改良を行い,MICo-150Kとなる。
包括的評価を実現するため,タスク毎のMICo-Benchを100件,De&Reを300件構築した。
- 参考スコア(独自算出の注目度): 17.112861271220176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In controllable image generation, synthesizing coherent and consistent images from multiple reference inputs, i.e., Multi-Image Composition (MICo), remains a challenging problem, partly hindered by the lack of high-quality training data. To bridge this gap, we conduct a systematic study of MICo, categorizing it into 7 representative tasks and curate a large-scale collection of high-quality source images and construct diverse MICo prompts. Leveraging powerful proprietary models, we synthesize a rich amount of balanced composite images, followed by human-in-the-loop filtering and refinement, resulting in MICo-150K, a comprehensive dataset for MICo with identity consistency. We further build a Decomposition-and-Recomposition (De&Re) subset, where 11K real-world complex images are decomposed into components and recomposed, enabling both real and synthetic compositions. To enable comprehensive evaluation, we construct MICo-Bench with 100 cases per task and 300 challenging De&Re cases, and further introduce a new metric, Weighted-Ref-VIEScore, specifically tailored for MICo evaluation. Finally, we fine-tune multiple models on MICo-150K and evaluate them on MICo-Bench. The results show that MICo-150K effectively equips models without MICo capability and further enhances those with existing skills. Notably, our baseline model, Qwen-MICo, fine-tuned from Qwen-Image-Edit, matches Qwen-Image-2509 in 3-image composition while supporting arbitrary multi-image inputs beyond the latter's limitation. Our dataset, benchmark, and baseline collectively offer valuable resources for further research on Multi-Image Composition.
- Abstract(参考訳): 制御可能な画像生成では、複数の参照入力からコヒーレントで一貫した画像を合成する。
このギャップを埋めるために、我々はMICoの体系的な研究を行い、それらを7つの代表的なタスクに分類し、高品質な画像の大規模な収集をキュレートし、様々なMICoプロンプトを構築する。
強力なプロプライエタリなモデルを活用することで、バランスの取れた複合イメージを多量に合成し、続いてヒューマン・イン・ザ・ループ・フィルタリングと改良を行い、MICo-150Kはアイデンティティの整合性を備えたMICoの包括的なデータセットとなる。
さらに、分解分解分解(Decomposition-and-Recomposition)サブセットを構築し、1万1千個の実世界の複素画像を分解して再分解し、実際の合成合成合成を可能にする。
包括的評価を実現するため,タスク毎100ケース,De&Re300ケースを対象にMICo-Benchを構築し,特にMICo評価に適した新しいメトリクスであるWeighted-Ref-VIEScoreを導入する。
最後に、MICo-150K上で複数のモデルを微調整し、MICo-Bench上で評価する。
その結果、MICo-150KはMICo能力のないモデルに効果的に装備し、既存のスキルを持つモデルをさらに強化することがわかった。
特に,Qwen-Image-Editを微調整したベースラインモデルQwen-MICoは,Qwen-Image-2509を3次元合成でマッチングし,後者の制限を超えて任意のマルチイメージ入力をサポートする。
私たちのデータセット、ベンチマーク、ベースラインは、総合的に、マルチイメージコンポジションに関するさらなる研究のための貴重なリソースを提供します。
関連論文リスト
- HistoSpeckle-Net: Mutual Information-Guided Deep Learning for high-fidelity reconstruction of complex OrganAMNIST images via perturbed Multimode Fibers [0.0]
HistoSpeckle-Netは、MMFスペックルから構造的にリッチな医用画像を再構成するために設計されたディープラーニングアーキテクチャである。
複雑なOrganAMNISTデータセットに対する実験により,HistoSpeckle-Netはベースラインモデルよりも高い忠実性が得られることが示された。
論文 参考訳(メタデータ) (2025-11-25T12:20:50Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - CoTMR: Chain-of-Thought Multi-Scale Reasoning for Training-Free Zero-Shot Composed Image Retrieval [13.59418209417664]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、サンプルをトレーニングすることなく、合成クエリから情報を統合してターゲット画像を取得することを目的としている。
我々は,ZS-CIRのためのトレーニングフリーフレームワークであるCoTMRを提案し,新しいChain-of-Thought(CoT)とマルチスケール推論を提案する。
論文 参考訳(メタデータ) (2025-02-28T08:12:23Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal
Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。
我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文 参考訳(メタデータ) (2024-01-05T00:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。